将文件从s3复制并解压缩到HDFS

sca*_*ser 6 hadoop amazon-s3 hdfs

我想将test.tar.gz文件从S3复制到HDFS.这可以通过distcp或s​​3distcp来完成.但我的要求是,当我将文件传输到HDFS时,它应该在运行中提取,在HDFS中,我应该只提取文件而不是tar.gz.

请给我任何建议.

MaC*_*MaC 0

使用bash脚本有什么问题?我是说:

s3distcp --src [file-location] --dst . #Without the hdfs prefix
tar -zxvf test.tar.gz
hadoop fs -mkdir /input
hadoop fs -mkdir /input/test
hadoop fs -copyFromLocal test/ /input/test
Run Code Online (Sandbox Code Playgroud)