Spark Dataframe groupBy以序列作为键参数

debugcn 发表于 Dev

瓦迪姆·B。

我有一个spark dataFrame，我想通过多个键聚合值

正如spark文档所建议的：

def groupBy（col1：String，cols：String *）：GroupedData使用指定的列对DataFrame进行分组，因此我们可以对它们进行聚合

所以我做以下

 val keys = Seq("a", "b", "c")
 dataframe.groupBy(keys:_*).agg(...)

Intellij Idea引发以下错误：

扩展非重复参数

类型不匹配：预期的Seq [Column]，实际的Seq [String]

但是，我可以手动传递多个参数而不会出现错误：

dataframe.groupBy("a", "b", "c").agg(...)

因此，我的问题是：如何以编程方式执行此操作？

零323

将列与 groupBy(cols: Column*)

import org.apache.spark.sql.functions.col

val keys = Seq("a", "b", "c").map(col(_))
dataframe.groupBy(keys:_*).agg(...)

或head/tail与groupBy(col1: String, cols: String*)：

val keys = Seq("a", "b", "c") 
dataframe.groupBy(keys.head, keys.tail: _*).agg(...)

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-21

我来说两句

0条评论

登录后参与评论

来自分类Dev

Spark Dataframe groupBy以序列作为键参数

来自分类Dev

提取嵌套Spark DataFrame中的列作为Scala数组

来自分类Dev

在Pandas Dataframe中，Groupby.agg（）组合多个列作为lambda函数的参数

来自分类Dev

Spark DataFrame 将多列聚合为一列作为字符串

来自分类Dev

在Spark中使用groupBy并返回到DataFrame

来自分类Dev

Spark Dataframe GroupBy & 复杂的case语句推导

来自分类Dev

pandas DataFrame使用列作为键到字典列表

来自分类Dev

通过将键作为列将JSON字典转换为Spark DataFrame

来自分类Dev

Spark：无法为DataFrame上的UDF序列化任务

来自分类Dev

Spark DataFrame通过GroupBy删除重复项保持第一

来自分类Dev

Spark 提供 DataFrame groupBy 中所有列的列表

来自分类Dev

如何使用Scala将DataSet传递给在Apache Spark中接受DataFrame作为参数的函数？

来自分类Dev

Spark DataFrame中的collectAsList

来自分类Dev

Spark DataFrame与sqlContext

来自分类Dev

Spark DataFrame mapPartitions

来自分类Dev

Spark DataFrame读写

来自分类Dev

Spark Dataframe并行读取

来自分类Dev

Spark DataFrame zipWithIndex

来自分类Dev

spark DataFrame“ as”方法的用法

来自分类Dev

CaseWhen在Spark DataFrame中

来自分类Dev

Spark DataFrame中的SumProduct

来自分类Dev

Spark DataFrame与sqlContext

来自分类Dev

就地圆形 Spark DataFrame

来自分类Dev

条件聚合 Spark DataFrame

来自分类Dev

Spark DataFrame 与 CreateDataFrame

来自分类Dev

Scala Spark DataFrame：dataFrame.select给定列名称序列的多个列

来自分类Dev

使用其列作为参数将函数应用于DataFrame

来自分类Dev

python-将dataframe列作为apply函数中的参数传递

来自分类Dev

熊猫-找不到列作为groupby的键

Related 相关文章

文章