Pyspark RDD的平均间隔

debugcn 发表于 Dev

奎斯奎德

我正在尝试使用PySpark查找相邻元组列表之间的平均差。

例如，如果我有这样的RDD

vals = [(2,110),(2,130),(2,120),(3,200),(3,206),(3,206),(4,150),(4,160),(4,170)]

我想找到每个键的平均差异。

例如对于键值“ 2”

平均差异为（abs（110-130）+ abs（130-120））/ 2 = 15。

到目前为止，这是我的方法。我正在尝试更改平均计算代码以适应此情况。但这似乎不起作用。

from pyspark import SparkContext
aTuple = (0,0)
interval = vals.aggregateByKey(aTuple, lambda a,b: (abs(a[0] - b),a[1] + 1),
                                       lambda a,b: (a[0] + b[0], a[1] + b[1]))
finalResult = interval.mapValues(lambda v: (v[0]/v[1])).collect()

我想使用RDD函数，不使用Spark SQL或任何其他附加程序包来执行此操作。

最好的方法是什么？

请让我知道，如果你有任何问题。

感谢您的时间。

科泽克

我想出了一个幼稚的方法。我不确定这是否在所有情况下都适用。它像这样。

首先让我们计算一下移动平均值。如果这不是计算移动平均线的正确方法，请纠正我。

def get_abs(num_list):
    '''
    >>> get_abs([110, 130, 120])
    15.0
    '''
    acc = 0
    num_pairs = 0
    for i in range(len(num_list)-1):
        acc += abs(num_list[i]-num_list[i+1])
        num_pairs +=1
    return acc/num_pairs

接下来，我们并行化列表

>>> vals = [(2,110),(2,130),(2,120),(3,200),(3,206),(3,206),(4,150),(4,160),(4,170)]
>>> rdd = sc.parallelize(vals)
>>> rdd.collect()
[(2, 110),
 (2, 130),
 (2, 120),
 (3, 200),
 (3, 206),
 (3, 206),
 (4, 150),
 (4, 160),
 (4, 170)]

然后，将属于同一列表的值分组。

>>> vals = rdd.groupByKey().mapValues(list)
>>> vals.collect()
[(4, [150, 160, 170]), (2, [110, 130, 120]), (3, [200, 206, 206])]

然后，我们只需要调用上面定义的函数来计算分组值的移动平均值。

>>> vals.mapValues(get_abs).collect()
[(4, 10.0), (2, 15.0), (3, 3.0)]

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-1

我来说两句

0条评论

登录后参与评论

来自分类Dev

pyspark rdd拆分问题

来自分类Dev

在PySpark中转换RDD

来自分类Dev

pyspark RDD 到 DataFrame

来自分类Dev

PySpark：在RDD中使用对象

来自分类Dev

Pyspark RDD：查找元素的索引

来自分类Dev

在pyspark RDD上显示分区

来自分类Dev

PySpark重新分区RDD元素

来自分类Dev

pyspark：仅基于rdd的操作

来自分类Dev

在 PySpark / Python RDD 中过滤

来自分类Dev

在时间间隔内的Pyspark组数据帧

来自分类Dev

在PySpark的时间间隔内计算重复值

来自分类Dev

在pyspark中获取日期间隔

来自分类Dev

将numpy矩阵转换为pyspark rdd

来自分类Dev

pyspark：将DataFrame转换为RDD [string]

来自分类Dev

如何从RDD中删除重复值[PYSPARK]

来自分类Dev

拆分RDD以进行K折验证：pyspark

来自分类Dev

从Pyspark中的RDD中提取字典

来自分类Dev

Pyspark RDD收集前163行

来自分类Dev

PySpark Join改组了共同分区的RDD

来自分类Dev

在pyspark中合并两个RDD

来自分类Dev

pySpark使用键/值从RDD创建DataFrame

来自分类Dev

根据pyspark RDD检查列表中的项目

来自分类Dev

带有通配符的Pyspark RDD .filter（）

来自分类Dev

pyspark rdd以最小的年龄获得最大的频率

来自分类Dev

pyspark rdd过滤器重复

来自分类Dev

使用pyspark将RDD转换为DataFrame

来自分类Dev

如何使用pyspark替换RDD中的字符？

来自分类Dev

在PySpark中重新排列RDD

来自分类Dev

在PySpark中重新排列RDD

Related 相关文章

文章