有没有一种方法可以获取rdd的前163行而不转换为df?
我已经尝试过类似的东西newrdd = rdd.take(163)
,但是它返回一个列表,并rdd.collect()
返回整个rdd。
有没有办法做到这一点?或者如果没有,可以将列表转换为rdd吗?
这是不是很有效,但你可以zipWithIndex
和filter
:
rdd.zipWithIndex().filter(lambda vi: vi[1] < 163).keys()
在实践中,简单地take
和parallelize
:
sc.parallelize(rdd.take(163))
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句