我在HDFS中的文件为:
drwxrwx--- - root supergroup 0 2016-08-19 06:21 /tmp/logs/root/logs/application_1464962104018_1639064
drwxrwx--- - root supergroup 0 2016-08-19 06:21 /tmp/logs/root/logs/application_1464962104018_1639065
Run Code Online (Sandbox Code Playgroud)
现在/tmp/logs/root/logs/
目录将不断在其中获取新文件。考虑到当前时间,我想获取在最近五分钟内创建的文件。然后,我需要将这些文件复制到本地计算机中。
我有这样一个Hadoop的commnd:
hadoop fs -ls /user/hive/warehouse/mashery_db.db/agg_per_mapi_stats_five_minutes/ | sort | awk '{ if (index($8, ".hive") == 0 && $6 <= "'"2016-02-10"'" && $7 <= "'"05:00"'") print $8 }'
Run Code Online (Sandbox Code Playgroud)
我想从中获取1st 10值,而不是获取目录中的所有文件。
我有一个有很多分区的配置单元表,我想在执行show partitions table name
command时只得到 100 个分区。