如何计算 ApacheSpark 结构化流中数据帧 API 的 z 分数?

罗密欧·金茨勒

我目前正在努力解决以下问题:

z-score 定义为:

z = (xu) / sd

(其中 x 是单个值,u 是窗口的平均值,sd 是窗口的标准偏差)

我可以在窗口上计算 u 和 sd 但不知道如何将每个单独的 x 值“结转”到结果数据帧中,以便计算每个值的 z 分数,这是我到目前为止得到的程度:

val df = spark.readStream
    .format("org.apache.bahir.sql.streaming.mqtt.MQTTStreamSourceProvider")   
    .option("topic", "topic/path")
    .load("tcp://localhost:1883")

val counter = df.groupBy(
    window($"timestamp", "2 seconds"),
      $"value")
    .agg($"value",avg($"value")+stddev($"value"))

val query = counter.writeStream
  .outputMode("complete")
  .format("console")
  .start()

我希望 .agg($"value",avg($"value")+stddev($"value")) 中的 $"value" 会将源数据框中的每个值传递给结果,但这是不是这样

有任何想法吗?

罗密欧·金茨勒

我现在找到了答案 - 答案是这是不可能的,因为 groupBy 返回一个 org.apache.spark.sql.GroupedData 对象,它只支持额外的聚合(当然)不允许访问单个值分组的行。这个帖子解释的很好,

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

分组观察并计算Z分数

来自分类Dev

如何将静态数据帧与Spark结构化流中的流数据进行比较?

来自分类Dev

如何将数据列转换为z分数?

来自分类Dev

计算z分数时出现奇怪的错误

来自分类Dev

使用zscore06计算z分数

来自分类Dev

如何在数据框的每一列上计算修改后的 Z 分数和 IQR

来自分类Dev

如何从Laravel中的json值计算分数?

来自分类Dev

R:z分数归一化

来自分类Dev

在 R 中创建 z 分数矩阵

来自分类Dev

如何添加新文件以激发结构化流数据帧

来自分类Dev

Python:计算字典到z分数的所有值

来自分类Dev

熊猫:计算Z分数以避免“前瞻”偏见

来自分类Dev

使用awk为所有列计算z分数

来自分类Dev

如何在Spark SQL中为每个组创建z分数

来自分类Dev

如何使用R中的循环为每个因子水平分别生成z分数?

来自分类Dev

如何从样本数据中计算准确度分数?

来自分类Dev

如何计算R中某个分数的幂的任何负数?

来自分类Dev

如何从django中的这些条目计算平均分数?

来自分类Dev

如何从Django中的这些条目计算平均分数?

来自分类Dev

如何在JavaScript中拆分数学计算

来自分类Dev

如何计算获得相等分数的学生并在SQL Server中显示该组的分数

来自分类Dev

如何按R中的特定行拆分数据帧

来自分类Dev

如何按R中的特定行拆分数据帧

来自分类Dev

如何在R中拆分数据帧

来自分类Dev

结构化流如何动态解析kafka的json数据

来自分类Dev

如何删除Spark结构化流创建的旧数据?

来自分类Dev

如何从时间拆分数据?

来自分类Dev

计算tableView中的部分数量

来自分类Dev

计算C中的分数指数