在pyspark中将rdd转换为没有模式的数据帧

我正在尝试将 rdd 转换为没有任何架构的数据帧。我试过下面的代码。它工作正常,但数据框列正在变乱

def f(x):
    d = {}
    for i in range(len(x)):
        d[str(i)] = x[i]
    return d
rdd = sc.textFile("test")
df = rdd.map(lambda x:x.split(",")).map(lambda x :Row(**f(x))).toDF()
df.show()
夏道

如果不想指定模式,请不要Row在 RDD 中转换使用如果您只有一个普通的RDD(不是RDD[Row]),您可以toDF()直接使用

df = rdd.map(lambda x: x.split(",")).toDF()

您也可以使用toDF()列命名

df = rdd.map(lambda x: x.split(",")).toDF("col1_name", ..., "colN_name")

如果您拥有的是一个,则RDD[Row]您需要实际知道每列的类型。这可以通过指定模式或如下完成

val df = rdd.map({ 
  case Row(val1: String, ..., valN: Long) => (val1, ..., valN)
}).toDF("col1_name", ..., "colN_name")

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用PySpark将rdd转换为数据帧:AttributeError:'RDD'对象没有属性'toDF'

来自分类Dev

pyspark将rdd转换为具有空值的数据帧

来自分类Dev

在Spark中将数据帧转换为rdd的成本

来自分类Dev

如何在pyspark中将密集向量转换为数据帧?

来自分类Dev

如何在pyspark中将嵌套字典转换为数据帧?

来自分类Dev

在PySpark中将rdd转换为本地字典

来自分类Dev

从 Pandas 数据帧转换为 LabeledPoint RDD

来自分类Dev

将 RDD[String] 转换为数据帧

来自分类Dev

无法将 RDD 转换为数据帧

来自分类Dev

将 RDD 转换为数据帧

来自分类常见问题

如何在火花中将rdd对象转换为数据帧

来自分类Dev

Pyspark + 关联规则挖掘:如何将数据帧转换为适合频繁模式挖掘的格式?

来自分类Dev

在 PySpark 中将 Python Dict 转换为稀疏 RDD 或 DF

来自分类Dev

从rdd转换为数据帧时索引超出范围

来自分类Dev

在R中将带有计数的宽数据帧转换为长格式

来自分类Dev

如何在R中将数据帧转换为具有多列的json

来自分类Dev

如何在R中将xml数据转换为数据帧

来自分类Dev

如何在R中将xml数据转换为数据帧

来自分类Dev

有没有办法从数据帧上的差异转换为Int?

来自分类Dev

PySpark:将RDD [DenseVector]转换为数据框

来自分类Dev

无法使用pyspark数据帧将utm转换为latlong

来自分类Dev

将pyspark数据帧转换为嵌套的json结构

来自分类Dev

Ho在python中将pd数据帧转换为矩阵结构

来自分类Dev

在R中将数据帧从“宽”格式转换为“长”格式

来自分类Dev

如何在R中将Json转换为数据帧

来自分类Dev

在Scala Spark中将嵌套的JSON转换为数据帧

来自分类Dev

在R中将数据帧转换为TS对象

来自分类Dev

在数据帧中将NaN值转换为0.0

来自分类Dev

如何在R中将数据帧转换为列表?

Related 相关文章

  1. 1

    使用PySpark将rdd转换为数据帧:AttributeError:'RDD'对象没有属性'toDF'

  2. 2

    pyspark将rdd转换为具有空值的数据帧

  3. 3

    在Spark中将数据帧转换为rdd的成本

  4. 4

    如何在pyspark中将密集向量转换为数据帧?

  5. 5

    如何在pyspark中将嵌套字典转换为数据帧?

  6. 6

    在PySpark中将rdd转换为本地字典

  7. 7

    从 Pandas 数据帧转换为 LabeledPoint RDD

  8. 8

    将 RDD[String] 转换为数据帧

  9. 9

    无法将 RDD 转换为数据帧

  10. 10

    将 RDD 转换为数据帧

  11. 11

    如何在火花中将rdd对象转换为数据帧

  12. 12

    Pyspark + 关联规则挖掘:如何将数据帧转换为适合频繁模式挖掘的格式?

  13. 13

    在 PySpark 中将 Python Dict 转换为稀疏 RDD 或 DF

  14. 14

    从rdd转换为数据帧时索引超出范围

  15. 15

    在R中将带有计数的宽数据帧转换为长格式

  16. 16

    如何在R中将数据帧转换为具有多列的json

  17. 17

    如何在R中将xml数据转换为数据帧

  18. 18

    如何在R中将xml数据转换为数据帧

  19. 19

    有没有办法从数据帧上的差异转换为Int?

  20. 20

    PySpark:将RDD [DenseVector]转换为数据框

  21. 21

    无法使用pyspark数据帧将utm转换为latlong

  22. 22

    将pyspark数据帧转换为嵌套的json结构

  23. 23

    Ho在python中将pd数据帧转换为矩阵结构

  24. 24

    在R中将数据帧从“宽”格式转换为“长”格式

  25. 25

    如何在R中将Json转换为数据帧

  26. 26

    在Scala Spark中将嵌套的JSON转换为数据帧

  27. 27

    在R中将数据帧转换为TS对象

  28. 28

    在数据帧中将NaN值转换为0.0

  29. 29

    如何在R中将数据帧转换为列表?

热门标签

归档