lines = sc.textFile(fileName)
我正在尝试从每一行的位置10:20获取字符串,以进行一些处理。由于行是RDD,因此出现语法错误,表明没有__getitem__
。
请记住,lines
是的的RDD
(集合),String
因此您需要substring
在每个元素上调用某些符号()。要在RDD的每个成员上获得函数调用的结果,map
是您的朋友。
Python(由@ zero323提供):
lines.map(lambda line: line[10:21])
Scala:
lines.map ( line => line.substring(10,20) )
这将返回另一个RDD,因此您需要在执行操作(即返回结果或写入文件)之前编写更多的转换,这将触发它运行。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句