如何在 Spark (Scala) 中组合两个 RDD?

tattybojangler

所以,假设我有以下两个 RDDS:(这些只是每个 RDD 的前几行)

RDD1:

Time                   Temp 
2014-08-12 13:20:00    22
2014-08-12 13:21:00    24
2014-08-12 13:24:00    26
2014-08-12 13:26:00    27
2014-08-12 13:28:00    22

RDD2:

Time                   Age 
2014-08-12 13:20:00    45
2014-08-12 13:21:00    45
2014-08-12 13:24:00    46
2014-08-12 13:26:00    37
2014-08-12 13:28:00    122

我想将它们组合起来,以便将 RDD2 列添加到 RDD1。我不能使用联合,因为这只会将 RDD2 添加到 RDD1 的底部,而如果有意义的话,我想将它添加到“侧面”。

维迪亚

join会让你加入这些RDD“并排”。从文档:

"当调用类型为 (K, V) 和 (K, W) 的数据集时,返回一个 (K, (V, W)) 对的数据集,其中包含每个键的所有元素对。通过 leftOuterJoin、rightOuterJoin 支持外连接, 和 fullOuterJoin。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类常见问题

如何在Scala的Spark RDD中避免使用collect?

来自分类Dev

Spark-Scala:将RDD随机播放/将RDD随机分为两个随机部分

来自分类Dev

比较Spark中两个RDD中的数据

来自分类Dev

如何在Scala Spark中对RDD进行排序?

来自分类Dev

在Scala Spark中嵌套RDD

来自分类Dev

根据SPARK scala中的条件处理RDD

来自分类Dev

spark中的哪个功能用于通过键组合两个RDD

来自分类Dev

如何通过Spark RDD中的键来连接两个哈希图

来自分类Dev

Scala Spark中的RDD过滤器

来自分类Dev

如何使两个Spark RDD并行运行

来自分类Dev

如何在Scala的Spark Streaming中获得两个DStream的笛卡尔积?

来自分类Dev

在Apache Spark中,如何按两个共享值对RDD的所有行进行分组?

来自分类Dev

如何在Scala的Spark RDD中避免使用collect?

来自分类Dev

在rdd spark scala中split()之后如何过滤?

来自分类Dev

Spark-Scala RDD

来自分类Dev

如何在scala spark rdd中提取CSV文件的列

来自分类Dev

如何在Scala的Spark Streaming中获得两个DStream的笛卡尔积?

来自分类Dev

Spark,Scala:如何根据键对减去RDD对中的值?

来自分类Dev

Python中的Spark使用元组-加入两个RDD后如何合并两个元组

来自分类Dev

在 Spark/Scala 中减去两个 RDD 包含列表作为值

来自分类Dev

两个RDD的笛卡尔积和笛卡尔的总和导致Spark(scala)?

来自分类Dev

如何从 Spark RDD Iiterable 中获取两个元素的总和

来自分类Dev

如何按索引组合两个 RDD[String]s?

来自分类Dev

如何通过Spark RDD(Java)中的索引获取元素而不是scala,python

来自分类Dev

如何使用 spark-scala 删除 rdd 中的 unicode?

来自分类Dev

如何使用 Spark Scala 加入 3 个 RDD

来自分类Dev

使用scala在spark中创建对RDD

来自分类Dev

scala spark rdd 连接两个具有相同 ID 的表

来自分类Dev

RDD scala spark中的全外连接

Related 相关文章

  1. 1

    如何在Scala的Spark RDD中避免使用collect?

  2. 2

    Spark-Scala:将RDD随机播放/将RDD随机分为两个随机部分

  3. 3

    比较Spark中两个RDD中的数据

  4. 4

    如何在Scala Spark中对RDD进行排序?

  5. 5

    在Scala Spark中嵌套RDD

  6. 6

    根据SPARK scala中的条件处理RDD

  7. 7

    spark中的哪个功能用于通过键组合两个RDD

  8. 8

    如何通过Spark RDD中的键来连接两个哈希图

  9. 9

    Scala Spark中的RDD过滤器

  10. 10

    如何使两个Spark RDD并行运行

  11. 11

    如何在Scala的Spark Streaming中获得两个DStream的笛卡尔积?

  12. 12

    在Apache Spark中,如何按两个共享值对RDD的所有行进行分组?

  13. 13

    如何在Scala的Spark RDD中避免使用collect?

  14. 14

    在rdd spark scala中split()之后如何过滤?

  15. 15

    Spark-Scala RDD

  16. 16

    如何在scala spark rdd中提取CSV文件的列

  17. 17

    如何在Scala的Spark Streaming中获得两个DStream的笛卡尔积?

  18. 18

    Spark,Scala:如何根据键对减去RDD对中的值?

  19. 19

    Python中的Spark使用元组-加入两个RDD后如何合并两个元组

  20. 20

    在 Spark/Scala 中减去两个 RDD 包含列表作为值

  21. 21

    两个RDD的笛卡尔积和笛卡尔的总和导致Spark(scala)?

  22. 22

    如何从 Spark RDD Iiterable 中获取两个元素的总和

  23. 23

    如何按索引组合两个 RDD[String]s?

  24. 24

    如何通过Spark RDD(Java)中的索引获取元素而不是scala,python

  25. 25

    如何使用 spark-scala 删除 rdd 中的 unicode?

  26. 26

    如何使用 Spark Scala 加入 3 个 RDD

  27. 27

    使用scala在spark中创建对RDD

  28. 28

    scala spark rdd 连接两个具有相同 ID 的表

  29. 29

    RDD scala spark中的全外连接

热门标签

归档