如何在pyspark中查看RDD中每个分区的内容？

debugcn 发表于 Dev

博瓦尔德

我想了解更多有关pyspark如何分区数据的知识。我需要这样的功能：

a = sc.parallelize(range(10), 5)
show_partitions(a)

#output:[[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]] (or however it partitions)

博瓦尔德

该格莱姆教授功能是你在找什么：

glom（self）：返回通过将每个分区内的所有元素合并到列表中而创建的RDD。

a = sc.parallelize(range(10), 5)
a.glom().collect()
#output:[[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]]

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-16

我来说两句

0条评论

登录后参与评论

来自分类Dev

如何在pyspark中查看RDD中每个分区的内容？

来自分类Dev

Spark如何在RDD的每个部分中查看数据

来自分类Dev

如何在PySpark中的每个分区中回填空值

来自分类Dev

计算每个pyspark RDD分区中的元素数

来自分类Dev

分区表后，如何查看每个分区中的数据

来自分类Dev

在Pyspark的RDD分区中拆分数组

来自分类Dev

如何在Spark中打印特定RDD分区的元素？

来自分类Dev

在Python Spark中查看RDD内容？

来自分类Dev

使用map或split（pyspark）后如何查看RDD的内容？

来自分类Dev

如何在PySpark中序列化LabeledPoint RDD？

来自分类Dev

如何在PySpark中获得独特的字典RDD？

来自分类Dev

如何在pyspark的RDD上访问元组中的单个元素？

来自分类Dev

如何在 Pyspark 中 Srot rdd 内部列表元素？

来自分类Dev

如何在FreeBSD中查看每个接口的网络流量？

来自分类Dev

如何在Linux中查看Hive Orc文件的内容

来自分类Dev

如何在Xcode中查看静态库的内容？

来自分类Dev

如何在Windows 8中查看剪贴板的内容？

来自分类Dev

如何在javascript中查看历史对象的内容？

来自分类Dev

如何在 PowerShell 中查看远程日志文件的内容？

来自分类Dev

如何在 JXA 中查看 NSData 数组的内容？

来自分类Dev

Spark RDD是否可以确定每个分区中的元素集？

来自分类Dev

如何查看表中的分区信息？

来自分类Dev

如何在每个网页中包含重复的内容？

来自分类Dev

在PySpark的RDD中为每个列查找不同的值

来自分类Dev

如何从RDD中删除重复值[PYSPARK]

来自分类Dev

如何使用pyspark替换RDD中的字符？

来自分类Dev

如何从 PySpark 中的 RDD 创建数据帧？

来自分类Dev

如何在MySQL中查看表分区大小（甚至有可能吗？）

来自分类Dev

如何查看收藏夹中的内容？

Related 相关文章

文章