如何在 HDFS 中查找访问频率较低的文件

北斗七星

除了使用 Cloudera Navigator,我如何才能在 HDFS 中找到不常访问的文件。

U880D

我假设您正在寻找上次访问文件的时间(打开、读取等),因为过去时间越长,访问文件的次数就越少。

因此,您可以通过ls -l -someMoreOptions在 Linux 中非常简单地完成此操作,但在 HDFS 中需要做更多工作。

也许您可以监视上述文件/hdfs-audit.logfor cmd=open或者,您可以实现一个小函数来读出FileStatus.getAccessTime()和 ,如在是否有办法获取 HDFS 文件的最后访问时间?如何获取 HDFS 中任何文件的最后访问时间?在 Cloudera 社区中。

换句话说,有必要创建一个小程序来扫描所有文件,读出属性

...
status = fs.getFileStatus(new Path(line));
...   
long lastAccessTimeLong = status.getAccessTime();
Date lastAccessTimeDate = new Date(lastAccessTimeLong);
...

并订购它。您将能够找到长时间未访问的文件。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何在 HDFS 文件中搜索

来自分类Dev

如何从HDFS删除文件?

来自分类Dev

如何在HDFS中检索已永久删除的文件

来自分类Dev

如何在Spark中读取HDFS序列文件

来自分类Dev

如何在嵌入式模式下从 Drill 访问 HDFS?

来自分类Dev

如何在Hadoop HDFS目录中移动文件?

来自分类Dev

如何在Ubuntu中将文件上传到HDFS

来自分类Dev

如何在Ubuntu中将文件上传到HDFS

来自分类Dev

如何在 spark 中解析 json 文件?以及如何在 spark 或 hdfs 中插入 dynamo DB?

来自分类Dev

如何修复损坏的HDFS文件

来自分类Dev

如何在Hadoop HDFS中删除多级分区

来自分类Dev

如何在生产环境中在 Mesos 上运行 HDFS?

来自分类Dev

gzip文件如何存储在HDFS中

来自分类Dev

小文件如何存储在HDFS中

来自分类Dev

HBase如何启用对HDFS的随机访问?

来自分类Dev

如何在以XML为一列的hdfs中查询文件

来自分类Dev

Pyspark:如何在 HDFS 中并行化多 gz 文件处理

来自分类Dev

如何从hdfs上的文件加载typesafe configFactory?

来自分类Dev

HDFS:如何跨较小的文件分布?

来自分类Dev

如何从hdfs上的文件加载typesafe configFactory?

来自分类Dev

HDFS块中的数据如何存储?

来自分类Dev

HDFS块中的数据如何存储?

来自分类Dev

如何使用Spark快速从map()中的HDFS中读取文件

来自分类Dev

如何使用Spark快速从map()中的HDFS中读取文件

来自分类常见问题

如何在sc.textFile中代替HDFS加载本地文件

来自分类Dev

如何在极小的群集(3个节点或更少)上附加到hdfs文件

来自分类Dev

如何仅列出HDFS中的文件名

来自分类Dev

HDFS中的文件如何处理Spark分区?

来自分类Dev

如何使用Java在HDFS中创建和填充Parquet文件?

Related 相关文章

热门标签

归档