在pyspark RDD上显示分区

斯蒂芬·博斯

pyspark RDD文档

http://spark.apache.org/docs/1.2.1/api/python/pyspark.html#pyspark.RDD

没有显示任何显示RDD分区信息的方法。

有什么方法可以获取信息而无需执行其他步骤,例如:

myrdd.mapPartitions(lambda x: iter[1]).sum()

上面的方法确实有效..但是似乎很费劲。

斯蒂芬·博斯

我错过了:很简单:

rdd.getNumPartitions()

不再使用java-ish get FooMethod();)

更新:在@dnlbrky中添加注释:

dataFrame.rdd.getNumPartitions()

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

PySpark重新分区RDD元素

来自分类Dev

PySpark Join改组了共同分区的RDD

来自分类Dev

在Pyspark的RDD分区中拆分数组

来自分类Dev

Pyspark:重新分区与分区

来自分类Dev

如何在pyspark中查看RDD中每个分区的内容?

来自分类Dev

计算每个pyspark RDD分区中的元素数

来自分类Dev

如何在pyspark中查看RDD中每个分区的内容?

来自分类Dev

Pyspark分区最多

来自分类Dev

Pyspark 重新分区行为

来自分类Dev

Pyspark RDD的平均间隔

来自分类Dev

pyspark rdd拆分问题

来自分类Dev

在PySpark中转换RDD

来自分类Dev

pyspark RDD 到 DataFrame

来自分类Dev

PySpark-在重新分区的批次上应用功能

来自分类Dev

PySpark如何获取查询结果上的分区名称?

来自分类Dev

PySpark:无法迭代“ NoneType”对象上的RDD元素过滤失败

来自分类Dev

pyspark:在RDD的每个字段上应用函数

来自分类Dev

在rdd.foreach pyspark上应用功能

来自分类Dev

如何从pyspark rdd或分区确定原始的s3输入文件名

来自分类Dev

如何从pyspark rdd或分区确定原始的s3输入文件名

来自分类Dev

pyspark使用partitionby分区数据

来自分类Dev

获取pyspark中的分区数

来自分类Dev

PySpark:在RDD中使用对象

来自分类Dev

Pyspark RDD:查找元素的索引

来自分类Dev

pyspark:仅基于rdd的操作

来自分类Dev

在 PySpark / Python RDD 中过滤

来自分类Dev

pyspark:如何显示当前目录?

来自分类Dev

Spark 2.0读取csv分区数(PySpark)

来自分类Dev

Pyspark木地板-分区后排序