Dav*_*542 1 google-bigquery google-cloud-platform
目前,我们通过 csv 或直接通过流 API 将大部分数据加载到 BigQuery 中。然而,我想知道是否有任何可用的基准(或者谷歌工程师可以在答案中告诉我)如何比较加载不同格式的效率。
例如,如果我们有相同的 100M 行数据,BigQuery 是否会显示将其加载到以下位置的性能差异:
我确信答案之一是“为什么不测试它”,但我们希望在构建转换器或重写我们的应用程序之前,工程师可以与我们分享以下内容(如果有的话)就将数据从平面文件加载到 BQ 而言,上述格式的性能最高。
注意:上述所有文件都将存储在 Google Cloud Storage 中: https: //cloud.google.com/bigquery/docs/loading-data-cloud-storage。
“使用 Avro 源格式将 BigQuery 提取时间提高 10 倍”
到目前为止,提取速度取决于我们从 BigQuery 导出的文件格式。在 SDK 的早期版本中,表和查询可作为 Google Cloud Storage 中的 JSON 编码对象供 Dataflow 使用。考虑到每个这样的条目都具有相同的模式,这种表示是极其冗余的,本质上是为每条记录以字符串形式复制模式。
在 1.5.0 版本中,Dataflow 使用 Avro 文件格式根据单个共享架构对 BigQuery 数据进行二进制编码和解码。这会减少每个单独记录的大小以对应实际字段值
| 归档时间: |
|
| 查看次数: |
2384 次 |
| 最近记录: |