使用apache spark基于正则表达式匹配行以及目录中的文件名

Silent_Rebel

给定一个正则表达式和一个hdfs目录,我需要列出所有与正则表达式所在行匹配的文件名。我正在尝试使用apache spark语言斯卡拉优选。

我需要这种格式的返回值:

List <Map <文件名:字符串,List <行:字符串>>>

通过以下方法,我可以列出所有文件名。

val files = sc.wholeTextFiles(dirPath)
val regexpr = regex.r
var filter = files.filter{case(filename, content) => regexpr.findAllIn(content).length > 0 }

但是我无法获取正则表达式发生的确切行。

扎克·祖哈尔

SparkContext.wholeTextFiles返回一个RDD,其中每个文件的内容表示为单个字符串。如果您想将其分解成几行,则必须自己完成,例如:

val files = sc.wholeTextFiles(dirPath)
val regexpr = regex.r
var filter = files
   .mapValues(content => content.split('\n')) // break each file into lines
   .mapValues(lines => lines.filter(l => regexpr.findFirstIn(l).isDefined))

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用正则表达式匹配文件名

来自分类Dev

使用python中的模式或正则表达式匹配检查文件名

来自分类Dev

使用正则表达式匹配URL中的特定文件名

来自分类Dev

使用正则表达式检查目录内的文件名

来自分类Dev

需要使用正则表达式匹配变量中存在的类似标题的文件名

来自分类Dev

我可以使用什么正则表达式来匹配和替换多个文件名中的句号?

来自分类Dev

如何使用正则表达式匹配文件名来运行Mocha测试?

来自分类Dev

使用Linux Shell正则表达式匹配文件名

来自分类Dev

如何使用正则表达式匹配不带扩展名的文件名单词?

来自分类Dev

使用正则表达式将电影文件名与可选部分匹配

来自分类Dev

使用Ruby正则表达式匹配文件名的最有效方法

来自分类Dev

如何使用正则表达式匹配Content-Disposition文件名?

来自分类Dev

如何使用正则表达式从bash中的文件名中仅选择数字

来自分类Dev

使用正则表达式隔离文件名中的信息

来自分类Dev

使用正则表达式从字符串中刮取文件名

来自分类Dev

使用连续拆分或正则表达式从文件名中获取元素

来自分类Dev

在C#中,使用正则表达式匹配目录中的所有文件

来自分类Dev

在PHP中,使用正则表达式模式作为文件名查找现有文件

来自分类Dev

在PHP中,使用正则表达式模式作为文件名查找现有文件

来自分类Dev

使用正则表达式查找文件名中不带下划线的文件

来自分类Dev

使用正则表达式根据文件名移动文件,并删除文件名中子字符串中数字较小的文件

来自分类Dev

在FTP中使用正则表达式获取文件名以下载文件

来自分类Dev

如何使用正则表达式从文件路径列表中提取裸文件名

来自分类Dev

使用TypeScript中的正则表达式解析文件名(也是纯nodejs),令人惊讶地导致null

来自分类Dev

使用正则表达式在文件名中的2个连字符之间查找数据

来自分类Dev

有没有办法使用正则表达式来自动填充bash中的文件名?

来自分类Dev

重命名使用终端和正则表达式从文件名中删除前导数字

来自分类Dev

在嵌套文件/目录中使用正则表达式在一行中搜索多个字符串,并输出匹配的结果

来自分类Dev

cmd:替换文件名的内部(使用正则表达式掩码)

Related 相关文章

  1. 1

    使用正则表达式匹配文件名

  2. 2

    使用python中的模式或正则表达式匹配检查文件名

  3. 3

    使用正则表达式匹配URL中的特定文件名

  4. 4

    使用正则表达式检查目录内的文件名

  5. 5

    需要使用正则表达式匹配变量中存在的类似标题的文件名

  6. 6

    我可以使用什么正则表达式来匹配和替换多个文件名中的句号?

  7. 7

    如何使用正则表达式匹配文件名来运行Mocha测试?

  8. 8

    使用Linux Shell正则表达式匹配文件名

  9. 9

    如何使用正则表达式匹配不带扩展名的文件名单词?

  10. 10

    使用正则表达式将电影文件名与可选部分匹配

  11. 11

    使用Ruby正则表达式匹配文件名的最有效方法

  12. 12

    如何使用正则表达式匹配Content-Disposition文件名?

  13. 13

    如何使用正则表达式从bash中的文件名中仅选择数字

  14. 14

    使用正则表达式隔离文件名中的信息

  15. 15

    使用正则表达式从字符串中刮取文件名

  16. 16

    使用连续拆分或正则表达式从文件名中获取元素

  17. 17

    在C#中,使用正则表达式匹配目录中的所有文件

  18. 18

    在PHP中,使用正则表达式模式作为文件名查找现有文件

  19. 19

    在PHP中,使用正则表达式模式作为文件名查找现有文件

  20. 20

    使用正则表达式查找文件名中不带下划线的文件

  21. 21

    使用正则表达式根据文件名移动文件,并删除文件名中子字符串中数字较小的文件

  22. 22

    在FTP中使用正则表达式获取文件名以下载文件

  23. 23

    如何使用正则表达式从文件路径列表中提取裸文件名

  24. 24

    使用TypeScript中的正则表达式解析文件名(也是纯nodejs),令人惊讶地导致null

  25. 25

    使用正则表达式在文件名中的2个连字符之间查找数据

  26. 26

    有没有办法使用正则表达式来自动填充bash中的文件名?

  27. 27

    重命名使用终端和正则表达式从文件名中删除前导数字

  28. 28

    在嵌套文件/目录中使用正则表达式在一行中搜索多个字符串,并输出匹配的结果

  29. 29

    cmd:替换文件名的内部(使用正则表达式掩码)

热门标签

归档