use*_*405 0 python pandas google-bigquery google-cloud-datastore google-cloud-platform
目前,我们正在将从供应商API检索到的数据上传到Google Datastore.想知道数据存储和查询数据的最佳方法是什么.
我将需要查询数百万行数据,并将从数据中提取自定义工程特征.所以不知道是否我应该直接将数据加载到的BigQuery和数据存储区查询它已获得更快的处理或储存,然后将它移动到BigQuery的查询?我将使用pandas对存储的数据执行统计.
通常,Google Cloud Datastore用于存储应用程序访问的用户数据.Google BigQuery用于对数据运行分析查询,因此听起来更适合您提出的用例.
您可以查看Google云存储选项表,以进行更详细的比较.
将数据存储区数据直接加载到BigQuery中可以获得最佳查询性能,但您也可以将数据存储区备份到云存储,并将云存储用作BigQuery的外部数据源.
要访问熊猫BigQuery的结果,你可以用大熊猫,吉贝库或使用与BigQuery整合功能Datalab.
| 归档时间: |
|
| 查看次数: |
313 次 |
| 最近记录: |