我在HDFS中的文件为:
drwxrwx--- - root supergroup 0 2016-08-19 06:21 /tmp/logs/root/logs/application_1464962104018_1639064
drwxrwx--- - root supergroup 0 2016-08-19 06:21 /tmp/logs/root/logs/application_1464962104018_1639065
Run Code Online (Sandbox Code Playgroud)
现在/tmp/logs/root/logs/目录将不断在其中获取新文件。考虑到当前时间,我想获取在最近五分钟内创建的文件。然后,我需要将这些文件复制到本地计算机中。
我想编写一个数据保留shell脚本,当给出两个输入时 - 基本目录和保留期(以天为单位)删除仅比保留期更早的文件(而不是目录).我在互联网上搜索过并且有一些解决方案,但他们列出了目录并根据修改时间删除它们.
但是目录可能具有非常旧的时间戳,但可能包含最近更新的文件.
我该怎么办?命令中的mindepth和maxdepth选项find在HDFS中不起作用.
基目录可以具有多个子目录,这些子目录可以具有子目录等等.
base 目录是 /user/abhikaushik
然后我们有yyyy/mm/dd/hh像base/2017/04/23/22
或base/studies/programming/file1.txt等等形式的子文件夹