小编Osc*_*yhr的帖子

CI / CD 与 Databricks Unity 目录

我正在将 Databricks 工作区的表从 hive_metastore 迁移到 Unity Catalog。

我有三个 databricks 工作区:

  • 开发者
  • 测试
  • 产品

每个工作区都有自己的 ADLSv2 存储帐户。(开发、测试、生产)

目前,在开发时,我使用以下方式读取表格

df = spark.table('bronze.my_table') # schema.table
Run Code Online (Sandbox Code Playgroud)

这使用默认的 hive_metastore 指向相应的容器(工作空间开发 -> 存储帐户开发)。

但是,使用 Unity Catalog。看来我现在也必须根据我工作的工作空间来指定目录。除非工作空间有一个默认的统一目录。

df = spark.table('dev.bronze.my_table') # catalog.schema.table
Run Code Online (Sandbox Code Playgroud)

从 Dev -> Test -> Prod 工作区部署代码时。我想避免必须使用基于工作区(开发、测试、生产)的 Spark.table 动态设置所有笔记本的目录名称。基本上,在 Dev 中工作时,“bronze.my_table”指向存储在 dev 目录中的增量表数据。在 Prod 中,它指向存储在 prod 目录中的增量表数据。这可能吗?我假设我可以使用之前的 hive_metastore(每个工作区一个)并在其上构建 Unity Catalog(它们相互引用并且同步)。然而,Unity Catalog 取代 hive_metastore 的想法不是吗?

databricks databricks-unity-catalog

5
推荐指数
1
解决办法
1221
查看次数