搜索

搜索

Spark Union所有多个数据框

Echo 发表于 Dev

3

回声

对于一组数据框

val df1 = sc.parallelize(1 to 4).map(i => (i,i*10)).toDF("id","x")
val df2 = sc.parallelize(1 to 4).map(i => (i,i*100)).toDF("id","y")
val df3 = sc.parallelize(1 to 4).map(i => (i,i*1000)).toDF("id","z")

团结我所有的人

df1.unionAll(df2).unionAll(df3)

是否有一种更优雅，更可扩展的方式来处理任意数量的数据帧，例如从

Seq(df1, df2, df3)

零323

最简单的解决方案是reduce使用union（unionAll在Spark <2.0中）：

val dfs = Seq(df1, df2, df3)
dfs.reduce(_ union _)

这是相对简洁的，不应将数据从堆外存储中移出，~~但要扩展每个联合的沿袭，~~需要非线性时间来执行计划分析。如果您尝试合并大量，可能会出现问题DataFrames。

您还可以转换为RDDs并使用SparkContext.union：

dfs match {
  case h :: Nil => Some(h)
  case h :: _   => Some(h.sqlContext.createDataFrame(
                     h.sqlContext.sparkContext.union(dfs.map(_.rdd)),
                     h.schema
                   ))
  case Nil  => None
}

它使~~沿袭简短~~分析的成本较低，但比DataFrames直接合并效率低。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-03-1

0

我来说两句

0条评论

登录后参与评论

上一篇：OAuth 2.0如何使用密码授予来使授予的身份验证令牌无效

相关文章

来自分类Dev

在Spark数据框中将所有“：”替换为“ _”

来自分类Dev

Apache Spark-将UDF的结果分配给多个数据框列

来自分类Dev

从多个来源创建单个Spark数据框？

来自分类Dev

在Spark SQL中使用别名值从现有数据框创建另一个数据框

来自分类Dev

在Pyspark中的多个列上过滤具有多个条件的Spark数据框

来自分类Dev

Spark：返回每个数据集行的所有正则表达式匹配项

来自分类Dev

spark scala 数据帧合并多个数据帧

来自分类Dev

For循环Spark数据框

来自分类Dev

Spark数据框-Python

来自分类Dev

Apache Spark 数据框

来自分类Dev

过滤 Spark 数据框

来自分类Dev

Spark：匹配来自两个数据框的列

来自分类Dev

Python Spark连接两个数据框并填充列

来自分类Dev

Spark：匹配来自两个数据框的列

来自分类Dev

在Spark SQL中转换两个数据框

来自分类Dev

从 spark 中的单个数据框中删除 Column 列表

来自分类Dev

结合使用Scala和Spark，从Spark数据框中的JSON类型的列中获取所有值，而与键无关

来自分类Dev

Spark：在多个数据帧上使用相同的OneHotEncoder

来自分类Dev

与 spark 并行计算多个数据帧

来自分类常见问题

Scala Spark，输入数据框，返回所有值均等于1的列

来自分类Dev

将相同的功能应用于Spark数据框行的所有字段

来自分类Dev

如何在联接中选择数据框的所有列-Spark-scala

来自分类Dev

将映射函数应用于Spark数据框中的列的所有元素

来自分类Dev

Scala Spark，输入数据框，返回所有值均等于1的列

来自分类Dev

Spark：对列的子集进行插补时，如何保留数据框的所有列？

来自分类Dev

当列中并非所有值都存在时，是否可以按 Spark 的数据框分组？

来自分类Dev

spark scala 数据框将一列中的所有值加 1

来自分类Dev

从Spark数据框或sql中选择多个具有首选项层次结构的记录

来自分类Dev

将多个 spark 数据框列转换为具有列表类型的单列

Related 相关文章

文章

热门标签

归档