AWS Glue Data Catalog as Metastore用于Databricks等外部服务

Question

AWS Glue Data Catalog as Metastore用于Databricks等外部服务

Oba*_*aid 6 amazon-s3 data-lake databricks aws-glue hive-metastore

比方说,datalake在AWS上.使用S3作为存储,使用Glue作为数据目录.因此,我们可以使用Glue作为Metastore轻松使用athena,redshift或EMR来查询S3上的数据.

我的问题是,是否可以将Glue数据目录公开为AWS上托管的Databricks等外部服务的Metastore？

Answer 1

Databricks 提供了一些不错的文档/文章（请参阅文档和博客文章），尽管它们涵盖了自定义/旧版 Hive 元存储集成，而不是 Glue 本身。

另外 - 作为B 计划- 应该可以检查 Databricks 元存储中的表/分区定义，并通过 Java SDK 向 Glue 进行单向复制（或者也可以采用另一种方式，将 AWS API 响应映射到序列）的create table/create partition声明）。当然，这充满了相当复杂的极端情况，例如级联分区/表删除等，但对于一些简单的仅创建的东西来说，它似乎至少是可以实现的。

归档时间：	7 年，9 月前
查看次数：	900 次
最近记录：	7 年，6 月前