如何在Spark中处理制表符分隔的文件?

萨蒂亚

我有一个用制表符分隔的文件。第三列应该是我的关键字,整个记录应该是我的值(按照Map reduce概念)。

val cefFile = sc.textFile("C:\\text1.txt")
val cefDim1 =  cefFile.filter { line => line.startsWith("1") }
val joinedRDD = cefFile.map(x => x.split("\\t")) 
joinedRDD.first().foreach { println } 

我能够获得第一列的值,但无法获得第三列的值。谁能建议我如何做到这一点?

霍尔顿

完成拆分后,x.split("\\t")您的rdd(在您的示例中您joinedRDD调用了它,但parsedRDD由于我们还没有加入任何内容所以我将其称为)将成为数组的RDD。通过执行操作,我们可以将其转换为键/值元组的数组parsedRDD.map(r => (r(2), r))话虽这么说-您不仅限于Spark中的map&reduce操作,因此可能更适合其他数据结构。同样,对于制表符分隔的文件,如果这很适合您要解决的最终问题,则可以将spark-csv与Spark DataFrames一起使用。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何合并制表符分隔的文件?

来自分类Dev

如何在制表符分隔的文件中查找列数

来自分类Dev

如何在 Java 中读取树结构制表符分隔的 txt 文件

来自分类Dev

如何在bash数组中存储由制表符分隔的文本文件中的文件路径

来自分类Dev

如何在Netezza NZSQL中使用制表符分隔符输出文件

来自分类Dev

如何在Spark中使用saveastextfile生成制表符分隔的输出?

来自分类Dev

如何在制表符分隔的文件中将行转置为列?

来自分类Dev

如何从配置单元查询创建以制表符分隔的文件?

来自分类Dev

如何确定文件在PowerShell中用制表符分隔?

来自分类Dev

如何对制表符分隔的文件进行排序?

来自分类Dev

在javascript中解析制表符分隔文件

来自分类Dev

在Perl中解析制表符分隔的文件

来自分类Dev

读取Clojure中的制表符分隔文件

来自分类Dev

将制表符分隔的文件读入C ++中的数组

来自分类Dev

制表符分隔文件中的C#FileHelpers空

来自分类Dev

使用Python读取Hadoop中制表符分隔的文件

来自分类Dev

在制表符分隔的文件中添加值列

来自分类Dev

从制表符分隔的文件中删除缺少值的行

来自分类Dev

更改Python文件中的值(制表符分隔的列表)

来自分类Dev

从由制表符分隔的文件中读取记录

来自分类Dev

如何使用split对制表符分隔文件中的列总数进行总计(列数未知)?

来自分类Dev

如何从两个制表符分隔的文件中获取支点线?

来自分类Dev

如何很好地在制表符分隔的文件中显示列?

来自分类Dev

如何使用python在制表符分隔的文件中逐行合并字段

来自分类Dev

如何折叠制表符分隔的 .txt 文件中的相似值?

来自分类Dev

JAVA:如何在制表符分隔的txt.file中读取很长的行

来自分类Dev

按键合并制表符分隔的文件

来自分类Dev

解析制表符分隔文件的策略

来自分类Dev

awk:遍历制表符分隔的文件

Related 相关文章

  1. 1

    如何合并制表符分隔的文件?

  2. 2

    如何在制表符分隔的文件中查找列数

  3. 3

    如何在 Java 中读取树结构制表符分隔的 txt 文件

  4. 4

    如何在bash数组中存储由制表符分隔的文本文件中的文件路径

  5. 5

    如何在Netezza NZSQL中使用制表符分隔符输出文件

  6. 6

    如何在Spark中使用saveastextfile生成制表符分隔的输出?

  7. 7

    如何在制表符分隔的文件中将行转置为列?

  8. 8

    如何从配置单元查询创建以制表符分隔的文件?

  9. 9

    如何确定文件在PowerShell中用制表符分隔?

  10. 10

    如何对制表符分隔的文件进行排序?

  11. 11

    在javascript中解析制表符分隔文件

  12. 12

    在Perl中解析制表符分隔的文件

  13. 13

    读取Clojure中的制表符分隔文件

  14. 14

    将制表符分隔的文件读入C ++中的数组

  15. 15

    制表符分隔文件中的C#FileHelpers空

  16. 16

    使用Python读取Hadoop中制表符分隔的文件

  17. 17

    在制表符分隔的文件中添加值列

  18. 18

    从制表符分隔的文件中删除缺少值的行

  19. 19

    更改Python文件中的值(制表符分隔的列表)

  20. 20

    从由制表符分隔的文件中读取记录

  21. 21

    如何使用split对制表符分隔文件中的列总数进行总计(列数未知)?

  22. 22

    如何从两个制表符分隔的文件中获取支点线?

  23. 23

    如何很好地在制表符分隔的文件中显示列?

  24. 24

    如何使用python在制表符分隔的文件中逐行合并字段

  25. 25

    如何折叠制表符分隔的 .txt 文件中的相似值?

  26. 26

    JAVA:如何在制表符分隔的txt.file中读取很长的行

  27. 27

    按键合并制表符分隔的文件

  28. 28

    解析制表符分隔文件的策略

  29. 29

    awk:遍历制表符分隔的文件

热门标签

归档