riz*_*aak 8 google-app-engine google-bigquery google-cloud-datastore google-cloud-dataflow
我们使用数据存储作为持久性后端在Google App Engine上运行应用程序.目前,应用程序主要具有"OLTP"功能和一些初步报告.在实施报告时,我们遇到使用数据存储区和GQL处理大量数据(数百万个对象)非常困难.为了使用适当的报告和商业智能功能增强我们的应用程序,我们认为最好设置ETL过程以将数据从Datastore移动到BigQuery.
最初我们考虑将ETL过程实现为App Engine cron作业,但看起来Dataflow也可用于此.我们有以下设置流程的要求
我的问题是
问题是这两种方法可行吗?哪一个更好的成本?有没有比上面两个更好的其他方式?
谢谢,
rizTaak
数据流绝对可以用于此目的.事实上,Dataflow的可扩展性应该使流程快速且相对容易.
你的两种方法都应该有效 - 我会优先考虑使用批处理管道来移动现有数据,然后通过Cloud Pub/Sub处理新数据的流管道.除数据移动外,Dataflow还允许对数据本身执行任意分析/操作.
也就是说,BigQuery和Datastore可以直接连接.例如,请参阅BigQuery文档中的从云数据存储区加载数据.
| 归档时间: |
|
| 查看次数: |
4540 次 |
| 最近记录: |