将数百万个文件从S3复制到GCS的最佳方法?

jmr*_*cha 3 amazon-s3 cloud-storage google-cloud-storage

我正在寻找一种将S3存储桶中的大量文件(超过1000万个)移至Google Cloud Storage的方法,但到目前为止仍然存在问题。

目前,我正在使用gsutil,因为它对S3和GCS之间的通信提供了本机支持,但是我获得的性能却不尽人意。也许我只是在做错事,但我一直在使用以下gsutil命令:

gsutil -m cp -R s3://bucket gs://bucket
Run Code Online (Sandbox Code Playgroud)

我启动了一个c3.2xlarge AWS实例(16GB 8CPU),以便可以拥有足够的功率,但是看来该包装箱的吞吐能力没有2GB 2CPU包装箱好,我不明白吗?

我一直在搞弄~/.boto配置文件,目前设置了以下选项:

parallel_process_count = 8
parallel_thread_count = 100
Run Code Online (Sandbox Code Playgroud)

我认为可以肯定的是,将线程数增加10倍会有所帮助,但是到目前为止,从我的测试来看,这并没有什么改变。还有什么可以做来提高性能的吗?

还是有更好的工具将S3数据移至GCS?我正在看SDK,并且半心想用Java编写某些东西。

Ben*_*n H 5

Google Cloud Storage Online Cloud Import专门用于从大量URL或S3存储桶中将大容量和大量文件导入GCS。它专为使用“ gsutil -m”而花费太长时间的数据大小而设计(首先尝试这样做是一件好事)。目前可以免费使用。

(免责声明,我是该项目的项目经理)