我在目录中有一些txt文件(我只有路径,没有文件名),其中包含json数据,我需要将所有这些文件读入数据框。
我尝试了这个:
df=sc.wholeTextFiles("path/*")
但是我什至无法显示数据,我的主要目标是对数据执行不同的查询。
而不是wholeTextFiles
(赋予键,将键作为文件名,将数据作为值的值对),
试试看,read.json
并给您的目录名称spark将把目录中的所有文件读入数据框。
df=spark.read.json("<directorty_path>/*")
df.show()
wholeTextFiles(path, minPartitions=None, use_unicode=True)
从HDFS,本地文件系统(在所有节点上都可用)或任何Hadoop支持的文件系统URI中读取文本文件目录。每个文件都作为单个记录读取,并以键值对的形式返回,其中键是每个文件的路径,值是每个文件的内容。
注意:首选小文件,因为每个文件都将完全加载到内存中。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句