将数据从S3迁移到Google云存储

Seb*_*Seb 1 amazon-s3 google-cloud-storage gsutil

我需要将大量的文件(大约几十TB)从Amazon S3移动到Google云端存储中.S3中的文件都在500mb以下.

到目前为止我使用gsutil CP与平行选项(-m)使用S3作为源和GS作为目的地直接尝试.即使调整多处理和多线程参数,我也无法实现超过30mb/s的性能.

我现在正在考虑的事情:

  • 负载从S3批量数据导入使用DistCp使用HDFS,然后找到DistCp使用-ING所有的数据到谷歌存储的一种方式(据我可以告诉不支持),或:

  • 设置,其中每个节点运行与S3和GS一个CP的gsutil并行作业作为src和dst的Hadoop集群

如果支持第一个选项,我会非常感谢有关如何执行此操作的详细信息.然而,似乎我必须找出如何做第二个.我不确定如何追求这个途径,因为我需要跟踪许多节点上的gsutil可恢复传输功能,而且我通常没有经验来运行这种hadoop工作.

任何有关如何追求这些途径(或者我没有想到的更简单的东西)的帮助都将不胜感激.

Mik*_*rtz 5

您可以设置Google Compute Engine(GCE)帐户并从GCE运行gsutil以导入数据.您可以启动多个GCE实例,每个实例都导入一部分数据.这是我们在Google I/O 2013上发表的演讲中涉及的技术之一,称为将大型数据集导入Google云端存储.

如果您使用此方法,您将要做的另一件事是使用gsutil cp -L-n选项.-L创建一个清单,记录有关已传输内容的详细信息,并-n允许您避免重新复制已复制的文件(如果您从头开始重新启动副本,例如,在中断后).我建议您更新到gsutil版本3.30(将在下周左右出现),这样可以改进该-L选项对于这种复制方案的工作方式.

Google云存储团队Mike Schwartz