我有一个带有大量数字(文件中的行长)的RDD,我想知道如何单次通过数据来获取最小值/最大值。
我知道最小和最大函数,但这需要两次通过。
试试这个:
>>> from pyspark.statcounter import StatCounter
>>>
>>> rdd = sc.parallelize([9, -1, 0, 99, 0, -10])
>>> stats = rdd.aggregate(StatCounter(), StatCounter.merge, StatCounter.mergeStats)
>>> stats.minValue, stats.maxValue
(-10.0, 99.0)
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句