如何使用pyspark和regex在字符串的RDD中查找所有以my_str开头的单词?

榆木662

我有一个字符串的RDD(全部为小写),并且我想使用正则表达式来匹配或查找所有以“ can”开头的单词。如何在Python中执行此操作?

例如,像这样的输入

rdd = sc.parallelize(['canada','canpar','beauty','can']) 

我想要一个输出像

['canada','canpar','can']

这是一个RDD。

四月

使用字符串功能

filteredRDD = rdd.filter(lambda x: x.startswith('can'))

与使用re模块

import re
filteredRDD = rdd.filter(lambda x: re.compile('can').match(x))

您可以通过以下方式收集filteredRDD的内容来测试结果: filteredRDD.collect()

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

Related 相关文章

热门标签

归档