如何从pyspark rdd或分区确定原始的s3输入文件名

octagonC 发表于 Dev

八边形

我正在使用pyspark流从S3到ETL输入文件。

我需要能够在s3：//上构建所有原始输入文件的审核跟踪，并且我的实木复合地板输出最终在hdfs：//上。

给定dstream，rdd或特定的rdd分区，是否有可能确定s3中输入数据的原始文件名？

目前，我知道的唯一方法是采用rdd.toDebugString()并尝试对其进行解析。但是，这感觉确实很hack，在某些情况下不起作用。例如，解析调试输出不适用于我也在做的批处理模式导入（使用sc.TextFile("s3://...foo/*")样式glob）。

有没有人能确定原始文件名的明智方法？

似乎其他一些Spark用户过去也有这个问题，例如：

http://apache-spark-user-list.1001560.n3.nabble.com/Access-original-filename-in-a-map-function-tt2831.html

谢谢！

砍刀

我们遇到了同样的问题，文件很小，所以我们使用sc.wholeTextFiles("s3:...foo/*")。

这会创建的RDD，("<path/filename>","<content>")然后将文件名附加到文件内容中以供使用。

如何将RDD [（String，String）]转换为RDD [Array [String]]？

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-23

我来说两句

0条评论

登录后参与评论

上一篇：Android Studio Gradle androidTest与InstrumentTest

来自分类Dev

如何从pyspark rdd或分区确定原始的s3输入文件名

来自分类Dev

如何将文件名和URL从s3导出到csv？

来自分类Dev

如何设置独特的AWS S3文件名？

来自分类Dev

Logstash：使用s3时如何使用过滤器匹配文件名

来自分类Dev

如何在S3中为presigned_url设置文件名

来自分类Dev

如何获取将图像上传到s3存储桶的文件名？

来自分类Dev

如何过滤从 amazon s3 返回的文件名以 .txt 结尾的对象列表

来自分类Dev

如何强制 HTML 输入文件选择器在 Ionic(Android) 中给出原始文件名？

来自分类Dev

如何使用sc.textFile（“ s3n：//bucket/*.csv”）将文件名映射到RDD？

来自分类Dev

@MultipartForm如何获取原始文件名？

来自分类Dev

如何在pyspark中查看RDD中每个分区的内容？

来自分类Dev

如何在pyspark中查看RDD中每个分区的内容？

来自分类Dev

如何确定 PySpark 数据帧分区的“首选位置”？

来自分类Dev

如何根据文件名的标题合并/合并存储在AWS S3存储桶中的视频

来自分类Dev

Logstash：使用s3时如何使用过滤器来匹配文件名

来自分类Dev

如何将数据从Redshift卸载到S3并在文件名中包含日期

来自分类Dev

如何从RDD中删除重复值[PYSPARK]

来自分类Dev

如何使用pyspark替换RDD中的字符？

来自分类Dev

如何从 PySpark 中的 RDD 创建数据帧？

来自分类Dev

如何使小写并删除pyspark中的原始列？

来自分类Dev

如何在我的pyspark代码中访问S3中的Amazon kinesis流文件？

来自分类Dev

如何打开用户输入的文件名？

来自分类Dev

如何在PySpark中读取Avro文件

来自分类Dev

pyspark如何加载压缩的快照文件

来自分类Dev

如何在PySpark中运行.sql文件

来自分类Dev

Pyspark：将多个文件加载到RDD中，但保留文件名

来自分类Dev

使用imagemagick转换时如何保留原始文件名

来自分类Dev

如何在PyKD中获取模块的原始文件名？

来自分类Dev

如何从打开的连接中确定SQLite文件名？

Related 相关文章

文章