如何在Spark中处理制表符分隔的文件？

debugcn 发表于 Dev

萨蒂亚

我有一个用制表符分隔的文件。第三列应该是我的关键字，整个记录应该是我的值（按照Map reduce概念）。

val cefFile = sc.textFile("C:\\text1.txt")
val cefDim1 =  cefFile.filter { line => line.startsWith("1") }
val joinedRDD = cefFile.map(x => x.split("\\t")) 
joinedRDD.first().foreach { println }

我能够获得第一列的值，但无法获得第三列的值。谁能建议我如何做到这一点？

霍尔顿

完成拆分后，x.split("\\t")您的rdd（在您的示例中您joinedRDD调用了它，但parsedRDD由于我们还没有加入任何内容，所以我将其称为）将成为数组的RDD。通过执行操作，我们可以将其转换为键/值元组的数组parsedRDD.map(r => (r(2), r))。话虽这么说-您不仅限于Spark中的map＆reduce操作，因此可能更适合其他数据结构。同样，对于制表符分隔的文件，如果这很适合您要解决的最终问题，则可以将spark-csv与Spark DataFrames一起使用。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-14

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

如何在Spark中处理制表符分隔的文件？

如何在Spark中处理制表符分隔的文件？

如何合并制表符分隔的文件？

如何在制表符分隔的文件中查找列数

如何在 Java 中读取树结构制表符分隔的 txt 文件

如何在bash数组中存储由制表符分隔的文本文件中的文件路径

如何在Netezza NZSQL中使用制表符分隔符输出文件

如何在Spark中使用saveastextfile生成制表符分隔的输出？

如何在制表符分隔的文件中将行转置为列？

如何从配置单元查询创建以制表符分隔的文件？

如何确定文件在PowerShell中用制表符分隔？

如何对制表符分隔的文件进行排序？

在javascript中解析制表符分隔文件

在Perl中解析制表符分隔的文件

读取Clojure中的制表符分隔文件

将制表符分隔的文件读入C ++中的数组

制表符分隔文件中的C＃FileHelpers空

使用Python读取Hadoop中制表符分隔的文件

在制表符分隔的文件中添加值列

从制表符分隔的文件中删除缺少值的行

更改Python文件中的值（制表符分隔的列表）

从由制表符分隔的文件中读取记录

如何使用split对制表符分隔文件中的列总数进行总计（列数未知）？

如何从两个制表符分隔的文件中获取支点线？

如何很好地在制表符分隔的文件中显示列？

如何使用python在制表符分隔的文件中逐行合并字段

如何折叠制表符分隔的 .txt 文件中的相似值？

JAVA：如何在制表符分隔的txt.file中读取很长的行

按键合并制表符分隔的文件

解析制表符分隔文件的策略

awk：遍历制表符分隔的文件