Spark结构化流时,DataFrame中的字符串列如何拆分为多个列

尼克·威克

这是当前代码:

from pyspark.sql import SparkSession

park_session = SparkSession\
    .builder\
    .appName("test")\
    .getOrCreate()

lines = spark_session\
    .readStream\
    .format("socket")\
    .option("host", "127.0.0.1")\
    .option("port", 9998)\
    .load()

The 'lines' looks like this:
+-------------+
|    value    |
+-------------+
|     a,b,c   |
+-------------+

But I want to look like this:
+---+---+---+
| a | b | c |
+---+---+---+

我尝试使用'split()'方法,但是没有用。您只能将每个字符串拆分为一列中的列表,而不能拆分为多列

我该怎么办?

Shu

Split值列,并通过访问array index(或)element_at(from spark-2.4)(或)getItem()函数来创建新列。


from pyspark.sql.functions import *

lines.withColumn("tmp",split(col("value"),',')).\
withColumn("col1",col("tmp")[0]).\
withColumn("col2",col("tmp").getItem(1)).\
withColumn("col3",element_at(col("tmp"),3))
drop("tmp","value").\
show()
#+----+----+----+
#|col1|col2|col3|
#+----+----+----+
#|   a|   b|   c|
#+----+----+----+

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类常见问题

如何解析结构化流中的JSON记录?

来自分类Dev

如何将字符串列表拆分为记录?

来自分类Dev

使用SparkR,如何将字符串列拆分为'n'个多列?

来自分类Dev

如何解析结构化流中的JSON记录?

来自分类Dev

如何在(Py)Spark结构化流中捕获不正确的(损坏的)JSON记录?

来自分类Dev

如何删除Spark结构化流创建的旧数据?

来自分类Dev

在带有水印和窗口聚合的Spark结构化流中运行多个查询

来自分类Dev

如何在r中的多个点拆分字符串列?

来自分类Dev

Spark结构化流从查询异常中恢复

来自分类Dev

在源中更新其基础数据时,结构化流中使用的Spark DataFrame会发生什么情况?

来自分类Dev

我们如何在Spark结构化流中管理偏移量?(_spark_metadata问题)

来自分类Dev

将字符串列表拆分为不同列时出现问题

来自分类Dev

Scala转换并将字符串列拆分为数据帧中的MapType列

来自分类Dev

如何并行运行多个结构化流?

来自分类Dev

在Spark结构化流中将数据内部联接到左联接的DataFrame时丢失条目

来自分类Dev

将数据框字符串列拆分为多个没有模式的列

来自分类Dev

如何将静态数据帧与Spark结构化流中的流数据进行比较?

来自分类Dev

将字符串列拆分为R中的多个新列

来自分类Dev

Spark结构化流作业如何处理流-静态DataFrame连接?

来自分类Dev

在使用Kafka的Spark结构化流媒体中,Spark如何管理多个主题的偏移

来自分类Dev

如何将数据帧字符串列拆分为两列?

来自分类Dev

如何将字符串拆分为结构?

来自分类Dev

如何在 Azure DataLake 中合并基本和多个增量结构化流

来自分类Dev

发送 Row.empty 时在 Spark 结构化流中获取 ArrayIndexOutOfBounds 异常

来自分类Dev

按空格将字符串列表拆分为列

来自分类Dev

当数组中的一项是带逗号的字符串时,将数组拆分为字符串列表

来自分类Dev

如何将字符串列表拆分为较小的字符串列表块

来自分类Dev

从 Kafka 读取时 Pyspark 结构化流中的异常

来自分类Dev

结构化流写入多个流

Related 相关文章

  1. 1

    如何解析结构化流中的JSON记录?

  2. 2

    如何将字符串列表拆分为记录?

  3. 3

    使用SparkR,如何将字符串列拆分为'n'个多列?

  4. 4

    如何解析结构化流中的JSON记录?

  5. 5

    如何在(Py)Spark结构化流中捕获不正确的(损坏的)JSON记录?

  6. 6

    如何删除Spark结构化流创建的旧数据?

  7. 7

    在带有水印和窗口聚合的Spark结构化流中运行多个查询

  8. 8

    如何在r中的多个点拆分字符串列?

  9. 9

    Spark结构化流从查询异常中恢复

  10. 10

    在源中更新其基础数据时,结构化流中使用的Spark DataFrame会发生什么情况?

  11. 11

    我们如何在Spark结构化流中管理偏移量?(_spark_metadata问题)

  12. 12

    将字符串列表拆分为不同列时出现问题

  13. 13

    Scala转换并将字符串列拆分为数据帧中的MapType列

  14. 14

    如何并行运行多个结构化流?

  15. 15

    在Spark结构化流中将数据内部联接到左联接的DataFrame时丢失条目

  16. 16

    将数据框字符串列拆分为多个没有模式的列

  17. 17

    如何将静态数据帧与Spark结构化流中的流数据进行比较?

  18. 18

    将字符串列拆分为R中的多个新列

  19. 19

    Spark结构化流作业如何处理流-静态DataFrame连接?

  20. 20

    在使用Kafka的Spark结构化流媒体中,Spark如何管理多个主题的偏移

  21. 21

    如何将数据帧字符串列拆分为两列?

  22. 22

    如何将字符串拆分为结构?

  23. 23

    如何在 Azure DataLake 中合并基本和多个增量结构化流

  24. 24

    发送 Row.empty 时在 Spark 结构化流中获取 ArrayIndexOutOfBounds 异常

  25. 25

    按空格将字符串列表拆分为列

  26. 26

    当数组中的一项是带逗号的字符串时,将数组拆分为字符串列表

  27. 27

    如何将字符串列表拆分为较小的字符串列表块

  28. 28

    从 Kafka 读取时 Pyspark 结构化流中的异常

  29. 29

    结构化流写入多个流

热门标签

归档