Spark Union所有多个数据框

回声

对于一组数据框

val df1 = sc.parallelize(1 to 4).map(i => (i,i*10)).toDF("id","x")
val df2 = sc.parallelize(1 to 4).map(i => (i,i*100)).toDF("id","y")
val df3 = sc.parallelize(1 to 4).map(i => (i,i*1000)).toDF("id","z")

团结我所有的人

df1.unionAll(df2).unionAll(df3)

是否有一种更优雅,更可扩展的方式来处理任意数量的数据帧,例如从

Seq(df1, df2, df3) 
零323

最简单的解决方案是reduce使用unionunionAll在Spark <2.0中):

val dfs = Seq(df1, df2, df3)
dfs.reduce(_ union _)

这是相对简洁的,不应将数据从堆外存储中移出,但要扩展每个联合的沿袭,需要非线性时间来执行计划分析。如果您尝试合并大量,可能会出现问题DataFrames

您还可以转换为RDDs并使用SparkContext.union

dfs match {
  case h :: Nil => Some(h)
  case h :: _   => Some(h.sqlContext.createDataFrame(
                     h.sqlContext.sparkContext.union(dfs.map(_.rdd)),
                     h.schema
                   ))
  case Nil  => None
}

它使沿袭简短分析的成本较低,但比DataFrames直接合并效率低

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

在Spark数据框中将所有“:”替换为“ _”

来自分类Dev

Apache Spark-将UDF的结果分配给多个数据框列

来自分类Dev

从多个来源创建单个Spark数据框?

来自分类Dev

在Spark SQL中使用别名值从现有数据框创建另一个数据框

来自分类Dev

在Pyspark中的多个列上过滤具有多个条件的Spark数据框

来自分类Dev

Spark:返回每个数据集行的所有正则表达式匹配项

来自分类Dev

spark scala 数据帧合并多个数据帧

来自分类Dev

For循环Spark数据框

来自分类Dev

Spark数据框-Python

来自分类Dev

Apache Spark 数据框

来自分类Dev

过滤 Spark 数据框

来自分类Dev

Spark:匹配来自两个数据框的列

来自分类Dev

Python Spark连接两个数据框并填充列

来自分类Dev

Spark:匹配来自两个数据框的列

来自分类Dev

在Spark SQL中转换两个数据框

来自分类Dev

从 spark 中的单个数据框中删除 Column 列表

来自分类Dev

结合使用Scala和Spark,从Spark数据框中的JSON类型的列中获取所有值,而与键无关

来自分类Dev

Spark:在多个数据帧上使用相同的OneHotEncoder

来自分类Dev

与 spark 并行计算多个数据帧

来自分类常见问题

Scala Spark,输入数据框,返回所有值均等于1的列

来自分类Dev

将相同的功能应用于Spark数据框行的所有字段

来自分类Dev

如何在联接中选择数据框的所有列-Spark-scala

来自分类Dev

将映射函数应用于Spark数据框中的列的所有元素

来自分类Dev

Scala Spark,输入数据框,返回所有值均等于1的列

来自分类Dev

Spark:对列的子集进行插补时,如何保留数据框的所有列?

来自分类Dev

当列中并非所有值都存在时,是否可以按 Spark 的数据框分组?

来自分类Dev

spark scala 数据框将一列中的所有值加 1

来自分类Dev

从Spark数据框或sql中选择多个具有首选项层次结构的记录

来自分类Dev

将多个 spark 数据框列转换为具有列表类型的单列

Related 相关文章

  1. 1

    在Spark数据框中将所有“:”替换为“ _”

  2. 2

    Apache Spark-将UDF的结果分配给多个数据框列

  3. 3

    从多个来源创建单个Spark数据框?

  4. 4

    在Spark SQL中使用别名值从现有数据框创建另一个数据框

  5. 5

    在Pyspark中的多个列上过滤具有多个条件的Spark数据框

  6. 6

    Spark:返回每个数据集行的所有正则表达式匹配项

  7. 7

    spark scala 数据帧合并多个数据帧

  8. 8

    For循环Spark数据框

  9. 9

    Spark数据框-Python

  10. 10

    Apache Spark 数据框

  11. 11

    过滤 Spark 数据框

  12. 12

    Spark:匹配来自两个数据框的列

  13. 13

    Python Spark连接两个数据框并填充列

  14. 14

    Spark:匹配来自两个数据框的列

  15. 15

    在Spark SQL中转换两个数据框

  16. 16

    从 spark 中的单个数据框中删除 Column 列表

  17. 17

    结合使用Scala和Spark,从Spark数据框中的JSON类型的列中获取所有值,而与键无关

  18. 18

    Spark:在多个数据帧上使用相同的OneHotEncoder

  19. 19

    与 spark 并行计算多个数据帧

  20. 20

    Scala Spark,输入数据框,返回所有值均等于1的列

  21. 21

    将相同的功能应用于Spark数据框行的所有字段

  22. 22

    如何在联接中选择数据框的所有列-Spark-scala

  23. 23

    将映射函数应用于Spark数据框中的列的所有元素

  24. 24

    Scala Spark,输入数据框,返回所有值均等于1的列

  25. 25

    Spark:对列的子集进行插补时,如何保留数据框的所有列?

  26. 26

    当列中并非所有值都存在时,是否可以按 Spark 的数据框分组?

  27. 27

    spark scala 数据框将一列中的所有值加 1

  28. 28

    从Spark数据框或sql中选择多个具有首选项层次结构的记录

  29. 29

    将多个 spark 数据框列转换为具有列表类型的单列

热门标签

归档