相关疑难解决方法(0)

使用shell脚本获取在hadoop中最近5分钟内创建的文件

我在HDFS中的文件为:

drwxrwx---   - root supergroup          0 2016-08-19 06:21 /tmp/logs/root/logs/application_1464962104018_1639064
drwxrwx---   - root supergroup          0 2016-08-19 06:21 /tmp/logs/root/logs/application_1464962104018_1639065
Run Code Online (Sandbox Code Playgroud)

现在/tmp/logs/root/logs/目录将不断在其中获取新文件。考虑到当前时间,我想获取在最近五分钟内创建的文件。然后,我需要将这些文件复制到本地计算机中。

unix shell hadoop hdfs

3
推荐指数
1
解决办法
3246
查看次数

Hadoop - 仅删除超过X天的文件

我想编写一个数据保留shell脚本,当给出两个输入时 - 基本目录和保留期(以天为单位)删除仅比保留期更早的文件(而不是目录).我在互联网上搜索过并且有一些解决方案,但他们列出了目录并根据修改时间删除它们.

但是目录可能具有非常旧的时间戳,但可能包含最近更新的文件.

我该怎么办?命令中的mindepthmaxdepth选项find在HDFS中不起作用.

基目录可以具有多个子目录,这些子目录可以具有子目录等等.

base 目录是 /user/abhikaushik

然后我们有yyyy/mm/dd/hhbase/2017/04/23/22base/studies/programming/file1.txt等等形式的子文件夹

shell hadoop hdfs

0
推荐指数
1
解决办法
5160
查看次数

标签 统计

hadoop ×2

hdfs ×2

shell ×2

unix ×1