如何以编程方式有效地将文件从HDFS复制到S3

Question

如何以编程方式有效地将文件从HDFS复制到S3

我的hadoop作业在HDFS上生成大量文件,我想编写一个单独的线程,将这些文件从HDFS复制到S3.

任何人都可以指向任何处理它的Java API.

谢谢

Answer 1

"支持S3块文件系统已添加到Hadoop 0.11.0中的$ {HADOOP_HOME}/bin/hadoop distcp工具中(参见HADOOP-862).distcp工具设置MapReduce作业来运行副本.使用distcp,a许多成员的集群可以快速复制大量数据.映射任务的数量是通过计算源中文件的数量来计算的:即每个映射任务负责复制一个文件.源和目标可以指不同的文件系统类型.例如,source可能引用本地文件系统或以S3为目标的hdfs."

在这里查看运行批量复制进出S3 http://wiki.apache.org/hadoop/AmazonS3

归档时间：	15 年，5 月前
查看次数：	14066 次
最近记录：	9 年，4 月前