从DynamoDB迁移到Spanner / BigTable

ris*_*097 4 amazon-dynamodb google-cloud-dataflow google-cloud-bigtable apache-beam google-cloud-spanner

我有一个用例,需要将70 TB的数据从DynamoDB迁移到BigTable和Spanner。具有单个索引的表将进入BigTable,否则将进入Spanner。

通过将数据导出到S3-> GCS-> Spanner / BigTable,可以轻松处理历史负载。但是具有挑战性的部分是要处理DynamoDB上同时发生的增量流负载。DynamoDB中有300个表。

如何以最好的方式处理这件事?有人做过吗?

Red*_*ios 5

一种方法是使用lambda捕获dynamodb更改,将更改发布到GCP pub / sub,然后让Dataflow流管道处理传入的pub / sub消息,然后根据表将其写入Spanner或BigTable

基本的DynamoDB-> Spanner解决方案记录在这里:https ://cloud.google.com/solutions/migrating-dynamodb-to-cloud-spanner

这可以适于处理不同表的不同目的地。