我在HDFS数据目录上有300000+个文件。
当我执行hadoop fs -ls时,出现内存不足错误,提示已超出GC限制。群集节点每个都有256 GB的RAM。我如何解决它?
编写一个python脚本将文件拆分为多个目录并运行它们。首先,当您知道目录中有300000+个文件时,您要尝试实现的目标。如果要串联,最好将它们分成子目录。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
点击生成二维码
我来说两句