我是Spark的新手。我可以在Spark中加载.json文件。如果一个文件夹中有成千上万个.json文件,该怎么办。文件夹中的.json文件的图片
我有一个csv文件,该文件使用标签对.json文件进行分类。csv文件的图片
如果我想加载和保存数据,我该怎么办(例如,我想在csv中加载第一个信息,但它是文本信息。但是它提供了.json的路径,我想加载.json,然后保存输出。因此,我将知道第一个Trusted标签图的json信息。)
对于JSON:
jsonRDD = sql_context.read.json("path/to/json_folder/");
对于CSV,请spark-csv
从此处安装Databricks的spark-csv
csvRDD = sql_context.read.load("path/to/csv_folder/",format='com.databricks.spark.csv',header='true',inferSchema='true')
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句