搜索

搜索

Spark DataFrame 将多列聚合为一列作为字符串

debugcn 发表于 Dev

11

迪马斯·里兹基

我想通过以下特定方式将 Spark DataFrame 转换为另一个 DataFrame：

我有 Spark 数据帧：

+---------+------------+
|protocol |   count    |
+---------+------------+
|      TCP|    8231    |
|     ICMP|    7314    |
|      UDP|    5523    |
|     IGMP|    4423    |
|      EGP|    2331    |
+---------+------------+

我想把它变成：

+----------------------------------------------------------+
|Aggregated                                                |
+----------------------------------------------------------+
|{tcp: 8231, icmp: 7314, udp: 5523, igmp: 4423, egp: 2331} |
+----------------------------------------------------------+

聚合列可以是列表或地图，也可以是字符串。这是否可以使用 DataFrame 函数实现，或者我是否需要创建自己的 udf 来聚合它？

阿尔珀 t。特克

pivot并且toJSON会给你你需要的

import org.apache.spark.sql.functions.first

df.groupBy().pivot("protocol").agg(first("count")).toJSON.show(false)
// +----------------------------------------------------------+                    
// |value                                                     |
// +----------------------------------------------------------+
// |{"EGP":2331,"ICMP":7314,"IGMP":4423,"TCP":8321,"UDP":5523}|
// +----------------------------------------------------------+

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-20

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

将Pandas DataFrame行合并为一列中的字符串

来自分类Dev

从JavaRDD <Row>创建的Spark DataFrame将所有列数据复制到第一列

来自分类Dev

Spark DataFrame将多行转换为列

来自分类Dev

使用第一列作为索引将Excel转换为Pandas DataFrame

来自分类Dev

Spark：保存由“虚拟”列划分的DataFrame

来自分类Dev

过滤包含字符串上的spark DataFrame

来自分类Dev

Spark RDD：对一列求和而不创建SQL DataFrame

来自分类Dev

将pandas系列作为一列添加到多索引的DataFrame填充级别

来自分类Dev

Spark DataFrame使列空值变为空

来自分类Dev

Spark DataFrame按键将列值聚合到列表中

来自分类Dev

Spark Dataframe groupBy以序列作为键参数

来自分类Dev

Spark DataFrame将列值转换为字符串变量

来自分类Dev

提取嵌套Spark DataFrame中的列作为Scala数组

来自分类Dev

从Spark Scala DataFrame中选择名称包含特定字符串的列

来自分类Dev

在Spark Dataframe中将字符串数据类型列转换为MapType

来自分类Dev

在R中转置DataFrame：将一行作为列，另一列聚合为行

来自分类Dev

Spark Dataframe中多列的每行排名

来自分类Dev

Spark DataFrame将字符串格式的毫秒时间戳列转换为以毫秒为单位的人类可读时间

来自分类Dev

将pandas系列作为一列添加到多索引的DataFrame填充级别

来自分类Dev

根据另一列的字符串搜索在Spark Dataframe中创建具有功能的新列

来自分类Dev

Spark Dataframe groupBy以序列作为键参数

来自分类Dev

Spark：将 DataFrame 列转换为向量

来自分类Dev

如何在 Spark Dataframe 上的字符串中添加一列字符的索引？

来自分类Dev

Spark Dataframe 连接字符串

来自分类Dev

条件聚合 Spark DataFrame

来自分类Dev

Spark DataFrame：多列上的多个聚合函数

来自分类Dev

在 Spark DataFrame 中添加一个新列，其中包含一列的所有值的总和 - Scala/Spark

来自分类Dev

在 Spark 上使用 Scala 拆分 Dataframe 中的字符串

来自分类Dev

Spark dataframe 列内容修改

Related 相关文章

文章

热门标签

归档