Google Cloud Data Catalog 是否可以用作 Dataproc (Spark/Hive/Presto) 以及 GCS 文件的元数据存储库?

use*_*193 5 google-cloud-storage google-cloud-platform google-cloud-dataproc google-data-catalog

我们使用 MySQL (Cloud SQL) 作为 Dataproc 的元数据存储库。这不会存储不属于 Hive 外部表的 GCS 文件的任何信息。

谁能建议将所有文件/数据详细信息存储在 Google Cloud 的一个目录中的最佳方法?

Dag*_*ang 2

Google Cloud Data Catalog Beta 版不适用于 GCS 或 Hive Metastore。请参阅此文档

在 Data Catalog Beta 版本中无法标记 Cloud Storage 资产(例如存储桶和对象)。

但它适用于 BigQuery,请参阅此快速入门示例。