如何将多个文本文件读取到pyspark中的数据框中

debugcn 发表于 Dev

碎纸机1921

我在目录中有一些txt文件（我只有路径，没有文件名），其中包含json数据，我需要将所有这些文件读入数据框。

我尝试了这个：

df=sc.wholeTextFiles("path/*")

但是我什至无法显示数据，我的主要目标是对数据执行不同的查询。

Shu

而不是wholeTextFiles（赋予键，将键作为文件名，将数据作为值的值对），

试试看，read.json并给您的目录名称spark将把目录中的所有文件读入数据框。

df=spark.read.json("<directorty_path>/*")
df.show()

从文档：

wholeTextFiles(path, minPartitions=None, use_unicode=True)

从HDFS，本地文件系统（在所有节点上都可用）或任何Hadoop支持的文件系统URI中读取文本文件目录。每个文件都作为单个记录读取，并以键值对的形式返回，其中键是每个文件的路径，值是每个文件的内容。

注意：首选小文件，因为每个文件都将完全加载到内存中。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-2

我来说两句

0条评论

登录后参与评论

来自分类Dev

如何将数据从文本文件读取到结构数组中

来自分类Dev

如何将文本文件读取到DataTable

来自分类Dev

如何将多个目录中的多个.parquet文件读取到单个pandas数据框中？

来自分类Dev

如何将多个文本文件中的特定行提取到Linux上的单个txt文件中？

来自分类Dev

如何将数据框信息中的输出保存到Excel或文本文件中

来自分类Dev

如何将结构松散的文本文件中的表读入R中的数据框？

来自分类Dev

Python：如何将包含行列格式的坐标的文本文件读取到xy坐标数组中？

来自分类Dev

如何将具有浮点数的文本文件读取到C中的浮点数组

来自分类Dev

如何将包含多个表的 .dat 文件读取到 Pandas 数据框中？

来自分类Dev

将具有不同整数数量的文本文件读取到多个列表中

来自分类Dev

如何将文本文件中的数据成对？

来自分类Dev

如何将数据框信息的输出保存到Excel或文本文件中

来自分类Dev

如何使用php将文本文件读取到HTML表中？

来自分类Dev

我如何将Linux centos中的树样式目录获取到文本文件

来自分类Dev

如何将 Windows 服务列表及其状态提取到文本文件中？

来自分类Dev

如何从python中的.txt文件读取数据框中的大文本文件

来自分类Dev

如何将文本文件的数据保存到变量中并在php文件上读取/显示？

来自分类Dev

将数据从文本文件读取到具有不同数据类型的结构中C＃

来自分类Dev

将文本文件中的特定行读取到批处理文件中的变量

来自分类Dev

如何在Matlab中读取多个文本文件？

来自分类Dev

如何在Matlab中读取多个文本文件？

来自分类Dev

如何将基于一列中不同类别的数据行提取到单独的文本文件中？

来自分类Dev

将数字从文本文件读取到Java中的ArrayList中

来自分类Dev

如何在R中读取文本文件并创建数据框

来自分类Dev

如何将时间从文本文件提取到另一个文本文件/列表中

来自分类Dev

如何将多个列表写入文本文件中自己的列中？

来自分类Dev

如何从文本文件中读取和保存数据？

来自分类Dev

如何使用PLinq将2d文本文件读取到2d数组中

来自分类Dev

将文本文件中的数据提取到VBA中的Excel中

Related 相关文章

文章