我有一个 HDFS 目录,其中包含超过一千条记录并且包含不同的文件名。我必须根据文件名计算文件。由于我有数千个文件,因此我无法为计数提供特定的文件名。
例如目录包含以下文件
/a/b/a.txt
/a/b/b.txt
/a/b/c.txt
/a/b/a.txt
/a/b/b.txt
/a/b/c.txt
结果应该是
一个.txt 2
b.txt 2
c.txt 2
这绝不是一个有效的解决方案,但如果你只是想快速编写一些脚本,它会这样做:
find . -exec basename {} \; | sort | uniq -c | sort
解释:
.
uniq
每次出现计数的-c 标志)在我的系统上,这给出了一些看起来像
... removed some output for clarity ...
2 CMakeLists.txt
2 heads
2 hello
2 info
2 origin
2 refs
2 remotes
2 test
2 test.cpp
4 .gitignore
4 HEAD
4 master
5 Makefile
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句