Pyspark RDD收集前163行

车轮

有没有一种方法可以获取rdd的前163行而不转换为df?

我已经尝试过类似的东西newrdd = rdd.take(163),但是它返回一个列表,并rdd.collect()返回整个rdd。

有没有办法做到这一点?或者如果没有,可以将列表转换为rdd吗?

零323

这是不是很有效,但你可以zipWithIndexfilter

rdd.zipWithIndex().filter(lambda vi: vi[1] < 163).keys()

在实践中,简单地takeparallelize

sc.parallelize(rdd.take(163))

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章