如何从pyspark rdd或分区确定原始的s3输入文件名

八边形

我正在使用pyspark流从S3到ETL输入文件。

我需要能够在s3://上构建所有原始输入文件的审核跟踪,并且我的实木复合地板输出最终在hdfs://上。

给定dstream,rdd或特定的rdd分区,是否有可能确定s3中输入数据的原始文件名?

目前,我知道的唯一方法是采用rdd.toDebugString()并尝试对其进行解析。但是,这感觉确实很hack,在某些情况下不起作用。例如,解析调试输出不适用于我也在做的批处理模式导入(使用sc.TextFile("s3://...foo/*")样式glob)。

有没有人能确定原始文件名的明智方法?

似乎其他一些Spark用户过去也有这个问题,例如:

http://apache-spark-user-list.1001560.n3.nabble.com/Access-original-filename-in-a-map-function-tt2831.html

谢谢!

砍刀

我们遇到了同样的问题,文件很小,所以我们使用sc.wholeTextFiles("s3:...foo/*")

这会创建的RDD,("<path/filename>","<content>")然后将文件名附加到文件内容中以供使用。

如何将RDD [(String,String)]转换为RDD [Array [String]]?

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何从pyspark rdd或分区确定原始的s3输入文件名

来自分类Dev

如何将文件名和URL从s3导出到csv?

来自分类Dev

如何设置独特的AWS S3文件名?

来自分类Dev

Logstash:使用s3时如何使用过滤器匹配文件名

来自分类Dev

如何在S3中为presigned_url设置文件名

来自分类Dev

如何获取将图像上传到s3存储桶的文件名?

来自分类Dev

如何过滤从 amazon s3 返回的文件名以 .txt 结尾的对象列表

来自分类Dev

如何强制 HTML 输入文件选择器在 Ionic(Android) 中给出原始文件名?

来自分类Dev

如何使用sc.textFile(“ s3n://bucket/*.csv”)将文件名映射到RDD?

来自分类Dev

@MultipartForm如何获取原始文件名?

来自分类Dev

如何在pyspark中查看RDD中每个分区的内容?

来自分类Dev

如何在pyspark中查看RDD中每个分区的内容?

来自分类Dev

如何确定 PySpark 数据帧分区的“首选位置”?

来自分类Dev

如何根据文件名的标题合并/合并存储在AWS S3存储桶中的视频

来自分类Dev

Logstash:使用s3时如何使用过滤器来匹配文件名

来自分类Dev

如何将数据从Redshift卸载到S3并在文件名中包含日期

来自分类Dev

如何从RDD中删除重复值[PYSPARK]

来自分类Dev

如何使用pyspark替换RDD中的字符?

来自分类Dev

如何从 PySpark 中的 RDD 创建数据帧?

来自分类Dev

如何使小写并删除pyspark中的原始列?

来自分类Dev

如何在我的pyspark代码中访问S3中的Amazon kinesis流文件?

来自分类Dev

如何打开用户输入的文件名?

来自分类Dev

如何在PySpark中读取Avro文件

来自分类Dev

pyspark如何加载压缩的快照文件

来自分类Dev

如何在PySpark中运行.sql文件

来自分类Dev

Pyspark:将多个文件加载到RDD中,但保留文件名

来自分类Dev

使用imagemagick转换时如何保留原始文件名

来自分类Dev

如何在PyKD中获取模块的原始文件名?

来自分类Dev

如何从打开的连接中确定SQLite文件名?

Related 相关文章

  1. 1

    如何从pyspark rdd或分区确定原始的s3输入文件名

  2. 2

    如何将文件名和URL从s3导出到csv?

  3. 3

    如何设置独特的AWS S3文件名?

  4. 4

    Logstash:使用s3时如何使用过滤器匹配文件名

  5. 5

    如何在S3中为presigned_url设置文件名

  6. 6

    如何获取将图像上传到s3存储桶的文件名?

  7. 7

    如何过滤从 amazon s3 返回的文件名以 .txt 结尾的对象列表

  8. 8

    如何强制 HTML 输入文件选择器在 Ionic(Android) 中给出原始文件名?

  9. 9

    如何使用sc.textFile(“ s3n://bucket/*.csv”)将文件名映射到RDD?

  10. 10

    @MultipartForm如何获取原始文件名?

  11. 11

    如何在pyspark中查看RDD中每个分区的内容?

  12. 12

    如何在pyspark中查看RDD中每个分区的内容?

  13. 13

    如何确定 PySpark 数据帧分区的“首选位置”?

  14. 14

    如何根据文件名的标题合并/合并存储在AWS S3存储桶中的视频

  15. 15

    Logstash:使用s3时如何使用过滤器来匹配文件名

  16. 16

    如何将数据从Redshift卸载到S3并在文件名中包含日期

  17. 17

    如何从RDD中删除重复值[PYSPARK]

  18. 18

    如何使用pyspark替换RDD中的字符?

  19. 19

    如何从 PySpark 中的 RDD 创建数据帧?

  20. 20

    如何使小写并删除pyspark中的原始列?

  21. 21

    如何在我的pyspark代码中访问S3中的Amazon kinesis流文件?

  22. 22

    如何打开用户输入的文件名?

  23. 23

    如何在PySpark中读取Avro文件

  24. 24

    pyspark如何加载压缩的快照文件

  25. 25

    如何在PySpark中运行.sql文件

  26. 26

    Pyspark:将多个文件加载到RDD中,但保留文件名

  27. 27

    使用imagemagick转换时如何保留原始文件名

  28. 28

    如何在PyKD中获取模块的原始文件名?

  29. 29

    如何从打开的连接中确定SQLite文件名?

热门标签

归档