Pyspark RDD收集前163行

wheels 发表于 Dev

车轮

有没有一种方法可以获取rdd的前163行而不转换为df？

我已经尝试过类似的东西newrdd = rdd.take(163)，但是它返回一个列表，并rdd.collect()返回整个rdd。

有没有办法做到这一点？或者如果没有，可以将列表转换为rdd吗？

零323

这是不是很有效，但你可以zipWithIndex和filter：

rdd.zipWithIndex().filter(lambda vi: vi[1] < 163).keys()

在实践中，简单地take和parallelize：

sc.parallelize(rdd.take(163))

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-23

我来说两句

0条评论

登录后参与评论

上一篇：在R的barplot面板中插入刻度线和xlab

来自分类Dev

Pyspark RDD收集前163行

来自分类Dev

在pyspark中使用缓冲区收集RDD

来自分类Dev

Pyspark收集清单

来自分类Dev

Pyspark RDD的平均间隔

来自分类Dev

pyspark rdd拆分问题

来自分类Dev

在PySpark中转换RDD

来自分类Dev

pyspark RDD 到 DataFrame

来自分类Dev

PySpark：在RDD中使用对象

来自分类Dev

Pyspark RDD：查找元素的索引

来自分类Dev

在pyspark RDD上显示分区

来自分类Dev

PySpark重新分区RDD元素

来自分类Dev

pyspark：仅基于rdd的操作

来自分类Dev

在 PySpark / Python RDD 中过滤

来自分类Dev

PySpark下降行

来自分类Dev

Pyspark从PostgreSQL删除行

来自分类Dev

pyspark列重复行

来自分类Dev

将 spark Rdd 列转换为 Pyspark 中的行

来自分类Dev

使用pyspark收集列表时过滤值

来自分类Dev

PySpark按行功能组合

来自分类Dev

计算Dataframe Pyspark中的行

来自分类Dev

Pyspark - 根据语言过滤行

来自分类Dev

将numpy矩阵转换为pyspark rdd

来自分类Dev

pyspark：将DataFrame转换为RDD [string]

来自分类Dev

如何从RDD中删除重复值[PYSPARK]

来自分类Dev

拆分RDD以进行K折验证：pyspark

来自分类Dev

从Pyspark中的RDD中提取字典

来自分类Dev

PySpark Join改组了共同分区的RDD

来自分类Dev

在pyspark中合并两个RDD

来自分类Dev

pySpark使用键/值从RDD创建DataFrame

Related 相关文章

文章