pyspark RDD文档
http://spark.apache.org/docs/1.2.1/api/python/pyspark.html#pyspark.RDD
没有显示任何显示RDD分区信息的方法。
有什么方法可以获取信息而无需执行其他步骤,例如:
myrdd.mapPartitions(lambda x: iter[1]).sum()
上面的方法确实有效..但是似乎很费劲。
我错过了:很简单:
rdd.getNumPartitions()
不再使用java-ish get FooMethod();)
更新:在@dnlbrky中添加注释:
dataFrame.rdd.getNumPartitions()
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句