我正在编写以下代码以获取 RDD 中的 csv 文件,我想合并多个 csv 文件并希望存储在单个 RDD 变量中。我能够在 RDD 中存储一个 csv 文件的数据,请帮助我如何合并多个 csv 文件并存储在单个 RDD 变量中。
val Rdd = spark.sparkContext.textFile(“File1.csv").map(_.split(","))
我期待类似的东西
val Rdd = spark.sparkContext.textFile(“File1.csv").map(_.split(",")) union spark.sparkContext.textFile(“File2.csv").map(_.split(","))
如果您有大量文件,我建议
val rdd = List("file1", "file2", "file3", "file4", "file5")
.map(spark.sparkContext.textFile(_))
.reduce(_ union _)
或者,如果您只知道您有 0 个或多个文件:
val rdd = getListOfFilenames()
.map(spark.sparkContext.textFile(_))
.foldLeft(spark.sparkContext.emptyRDD[String])(_ union _)
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句