如何使用Spark Scala获取年份计数

用户名

我有以下电影数据,如下所示,我应该每年获取电影的数量 2002,2 and 2004,1

Littlefield, John (I)   x House 2002
Houdyshell, Jayne   demon State 2004
Houdyshell, Jayne   mall in Manhattan   2002

val data=sc.textFile("..line to file")
val dataSplit=data.map(line=>{var d=line.split("\t");(d(0),d(1),d(2))})

我无法理解的是当我使用dataSplit.take(2).foreach(println)时,我看到d(0)是前两列Littlefield,John(I),这是名和姓,而d(1)是电影例如“ x House”和d(2)的名称是year。每年如何获得电影数量?

拉曼努斯

reduceByKey以这种方式与映射的元组一起使用

val dataSplit = data
  .map(line => {var d = line.split("\t"); (d(2), 1)}) // (2002, 1)
  .reduceByKey((a, b) => a + b)

// .collect() gives the result: Array((2004,1), (2002,2))

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何获取特定年份的1-12个月计数数据的频率

来自分类Dev

使用获取年份值

来自分类Dev

如何使用Scala在Spark中创建SQLContext?

来自分类Dev

如何使用Spark / Scala展平集合?

来自分类Dev

如何使用Scala在Spark中处理日期?

来自分类Dev

如何使用spark / scala解析YAML

来自分类Dev

如何使用Scala模拟Spark DataFrameReader?

来自分类Dev

如何使用 spark-submit 获取 spark SUBMISSION_ID?

来自分类Dev

如何使用pyspark从Spark获取批量行

来自分类Dev

如何仅使用给定的月份和年份进行计数

来自分类Dev

如何从日期获取年份季度?

来自分类Dev

使用 Scala Spark 从 URL 获取结果

来自分类Dev

使用Scala在Spark数据帧中连续计数值

来自分类Dev

如何使用Scala基于Spark中的条件获取row_number()

来自分类Dev

如何使用Scala删除重复的元组?笛卡尔Scala Spark

来自分类Dev

如何从指定的“年份”获取数据,其中“年份”是 DATETIME 列

来自分类常见问题

如何在Scala的Spark RDD中避免使用collect?

来自分类Dev

如何使用Spark的地图转换在Scala中返回多个键值对?

来自分类Dev

如何使用Scala将ORC Hive表从Spark更新

来自分类Dev

如何使用Scala从Spark中的列表或数组创建行

来自分类Dev

如何使用Scala运行Spark流的Twitter热门标签?

来自分类Dev

如何在Spark中使用Scala中的countDistinct?

来自分类Dev

如何在Spark / Scala解释器(REPL)中使用JDBC?

来自分类Dev

如何使用Scala在Spark中声明稀疏向量?

来自分类Dev

如何使用Scala将动作结果存储在Apache Spark中

来自分类Dev

如何使用spark-shell导入自己的scala包?

来自分类Dev

如何使用Spark Scala在JSON元素之间添加逗号

来自分类Dev

如何在Scala的Spark RDD中避免使用collect?

来自分类Dev

如何使用Scala运行Spark流的Twitter热门标签?

Related 相关文章

  1. 1

    如何获取特定年份的1-12个月计数数据的频率

  2. 2

    使用获取年份值

  3. 3

    如何使用Scala在Spark中创建SQLContext?

  4. 4

    如何使用Spark / Scala展平集合?

  5. 5

    如何使用Scala在Spark中处理日期?

  6. 6

    如何使用spark / scala解析YAML

  7. 7

    如何使用Scala模拟Spark DataFrameReader?

  8. 8

    如何使用 spark-submit 获取 spark SUBMISSION_ID?

  9. 9

    如何使用pyspark从Spark获取批量行

  10. 10

    如何仅使用给定的月份和年份进行计数

  11. 11

    如何从日期获取年份季度?

  12. 12

    使用 Scala Spark 从 URL 获取结果

  13. 13

    使用Scala在Spark数据帧中连续计数值

  14. 14

    如何使用Scala基于Spark中的条件获取row_number()

  15. 15

    如何使用Scala删除重复的元组?笛卡尔Scala Spark

  16. 16

    如何从指定的“年份”获取数据,其中“年份”是 DATETIME 列

  17. 17

    如何在Scala的Spark RDD中避免使用collect?

  18. 18

    如何使用Spark的地图转换在Scala中返回多个键值对?

  19. 19

    如何使用Scala将ORC Hive表从Spark更新

  20. 20

    如何使用Scala从Spark中的列表或数组创建行

  21. 21

    如何使用Scala运行Spark流的Twitter热门标签?

  22. 22

    如何在Spark中使用Scala中的countDistinct?

  23. 23

    如何在Spark / Scala解释器(REPL)中使用JDBC?

  24. 24

    如何使用Scala在Spark中声明稀疏向量?

  25. 25

    如何使用Scala将动作结果存储在Apache Spark中

  26. 26

    如何使用spark-shell导入自己的scala包?

  27. 27

    如何使用Spark Scala在JSON元素之间添加逗号

  28. 28

    如何在Scala的Spark RDD中避免使用collect?

  29. 29

    如何使用Scala运行Spark流的Twitter热门标签?

热门标签

归档