AWS Glue Data Catalog as Metastore用于Databricks等外部服务

Oba*_*aid 6 amazon-s3 data-lake databricks aws-glue hive-metastore

比方说,datalake在AWS上.使用S3作为存储,使用Glue作为数据目录.因此,我们可以使用Glue作为Metastore轻松使用athena,redshift或EMR来查询S3上的数据.

我的问题是,是否可以将Glue数据目录公开为AWS上托管的Databricks等外部服务的Metastore?

Ant*_*n K 1

Databricks 提供了一些不错的文档/文章(请参阅文档博客文章),尽管它们涵盖了自定义/旧版 Hive 元存储集成,而不是 Glue 本身。

另外 - 作为B 计划- 应该可以检查 Databricks 元存储中的表/分区定义,并通过 Java SDK 向 Glue 进行单向复制(或者也可以采用另一种方式,将 AWS API 响应映射到序列)的create table/create partition声明)。当然,这充满了相当复杂的极端情况,例如级联分区/表删除等,但对于一些简单的仅创建的东西来说,它似乎至少是可以实现的。