我想了解更多有关pyspark如何分区数据的知识。我需要这样的功能:
a = sc.parallelize(range(10), 5)
show_partitions(a)
#output:[[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]] (or however it partitions)
该格莱姆教授功能是你在找什么:
glom(self):返回通过将每个分区内的所有元素合并到列表中而创建的RDD。
a = sc.parallelize(range(10), 5)
a.glom().collect()
#output:[[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]]
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句