可以说我有一个RDD
[(u'Some1', (u'ABC', 9989)), (u'Some2', (u'XYZ', 235)), (u'Some3', (u'BBB', 5379)), (u'Some4', (u'ABC', 5379))]
我map
每次只能获取一个元组,但是如何访问元组的各个元素,例如查看元组是否包含某些字符。实际上,我想过滤掉那些包含某些字符的字符。这里包含的元组ABC
我试图做这样的事情,但没有帮助
def foo(line):
if(line[1]=="ABC"):
return (line)
new_data = data.map(foo)
我也是火花和Python的新手,请帮忙!!
RDD可以直接过滤。下面将为您提供在元组的第二个元素的第0个位置包含“ ABC”的所有记录。
new_data = data.filter(lambda x: x[1][0] == "ABC")
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句