标签: azure-data-catalog

Databricks、Synapse 和 ADLS gen2 的数据治理解决方案

我是数据治理的新手，如果问题缺少一些信息，请原谅我。

客观的

我们正在 Azure 平台上为中型电信公司从头开始构建数据湖和企业数据仓库。我们将 ADLS gen2、Databricks 和 Synapse 用于我们的 ETL 处理、数据科学、ML 和 QA 活动。

我们已经有大约一百个输入表和 25 TB/年。未来，我们期待更多。

企业有强烈的需求，倾向于与云无关的解决方案。他们仍然可以使用 Databricks，因为它可以在 AWS 和 Azure 上使用。

题

什么是最适合我们的堆栈和要求的数据治理解决方案？

我的解决方法

我还没有使用任何数据治理解决方案。我喜欢AWS Data Lake解决方案，因为它提供开箱即用的基本功能。AFAIK，Azure 数据目录已过时，因为它不支持 ADLS gen2。

在非常快速的谷歌搜索之后，我找到了三个选项：

Databricks 隐私
数据块 Immuta
Apache Ranger 和 Apache Atlas。

目前我什至不确定第三个选项是否完全支持我们的 Azure 堆栈。此外，它将有更大的开发（基础设施定义）工作。那么我有什么理由应该研究 Ranger/Atlas 的方向吗？

比 Immuta 更喜欢 Privacera 的原因是什么，反之亦然？

还有其他我应该评估的选项吗？

已经完成的事情

从数据治理的角度来看，我们只做了以下几件事：

在 ADLS 中定义数据区
对敏感数据应用加密/混淆（由于 GDPR 要求）。
在 Synapse 和 Power BI 层实施行级安全性 (RLS)
用于记录持久化内容和时间的自定义审计框架

要做的事情

数据沿袭和单一事实来源。即使在开始后的 4 …

architecture azure azure-data-catalog data-lake databricks

VB_*_*VB_

2020 05-12

5
推荐指数

1
解决办法

1570
查看次数

Azure 数据目录和 Azure 权限有什么区别

我记得 Azure 数据目录 V2 将很快发布，它具有数据沿袭功能，但我可以看到最近引入了与 Purview 相同的服务。您能否解释一下差异以及何时选择这些服务？

azure-data-catalog azure-purview

use*_*206

lucky-day

4
推荐指数

1
解决办法

2821
查看次数

标签统计

azure-data-catalog ×2

architecture ×1

azure ×1

azure-purview ×1

data-lake ×1

databricks ×1