VB_*_*VB_ 5 architecture azure azure-data-catalog data-lake databricks
我是数据治理的新手,如果问题缺少一些信息,请原谅我。
我们正在 Azure 平台上为中型电信公司从头开始构建数据湖和企业数据仓库。我们将 ADLS gen2、Databricks 和 Synapse 用于我们的 ETL 处理、数据科学、ML 和 QA 活动。
我们已经有大约一百个输入表和 25 TB/年。未来,我们期待更多。
企业有强烈的需求,倾向于与云无关的解决方案。他们仍然可以使用 Databricks,因为它可以在 AWS 和 Azure 上使用。
什么是最适合我们的堆栈和要求的数据治理解决方案?
我还没有使用任何数据治理解决方案。我喜欢AWS Data Lake解决方案,因为它提供开箱即用的基本功能。AFAIK,Azure 数据目录已过时,因为它不支持 ADLS gen2。
在非常快速的谷歌搜索之后,我找到了三个选项:
目前我什至不确定第三个选项是否完全支持我们的 Azure 堆栈。此外,它将有更大的开发(基础设施定义)工作。那么我有什么理由应该研究 Ranger/Atlas 的方向吗?
比 Immuta 更喜欢 Privacera 的原因是什么,反之亦然?
还有其他我应该评估的选项吗?
从数据治理的角度来看,我们只做了以下几件事:
小智 2
为了更好地理解您为 Azure 上的数据治理引用的选项 #2,这里有一个操作教程,演示了在 Databricks 上应用 RLS的体验;相关的Databricks 视频演示;和其他数据治理教程。
全面披露:我的团队为 Immuta 的数据工程师制作内容,我希望这有助于节省您的研究时间。
| 归档时间: |
|
| 查看次数: |
1570 次 |
| 最近记录: |