我有一个字符串的RDD(全部为小写),并且我想使用正则表达式来匹配或查找所有以“ can”开头的单词。如何在Python中执行此操作?
例如,像这样的输入
rdd = sc.parallelize(['canada','canpar','beauty','can'])
我想要一个输出像
['canada','canpar','can']
这是一个RDD。
使用字符串功能
filteredRDD = rdd.filter(lambda x: x.startswith('can'))
与使用re
模块
import re
filteredRDD = rdd.filter(lambda x: re.compile('can').match(x))
您可以通过以下方式收集filteredRDD的内容来测试结果: filteredRDD.collect()
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句