如何以编程方式有效地将文件从HDFS复制到S3

Ran*_*ion 8 hadoop amazon-s3 hdfs

我的hadoop作业在HDFS上生成大量文件,我想编写一个单独的线程,将这些文件从HDFS复制到S3.

任何人都可以指向任何处理它的Java API.

谢谢

Joe*_*ein 9

"支持S3块文件系统已添加到Hadoop 0.11.0中的$ {HADOOP_HOME}/bin/hadoop distcp工具中(参见HADOOP-862).distcp工具设置MapReduce作业来运行副本.使用distcp,a许多成员的集群可以快速复制大量数据.映射任务的数量是通过计算源中文件的数量来计算的:即每个映射任务负责复制一个文件.源和目标可以指不同的文件系统类型.例如,source可能引用本地文件系统或以S3为目标的hdfs."

在这里查看运行批量复制进出S3 http://wiki.apache.org/hadoop/AmazonS3


归档时间:

查看次数:

14066 次

最近记录:

9 年,4 月 前