use*_*299 5 azure databricks delta-lake
我正在尝试了解 Delta Lake 的青铜、白银、黄金数据流结构。黄金应该用于商业用途,并准备好通过数据仓库或某些报告服务摄取。(我理解对吗?)我的问题实际上是通过摄入 Delta Lake 直到将这些“黄金”表导出到数据仓库来实现更深入的数据生命周期。
谢谢!
我自己仍在学习这一点,但到目前为止我对此的理解如下。
青铜级意味着来自源头的数据。它应该保持不变,只是保存到青铜级别的增量表中。
银级是清洁的第一阶段。在这里,您可以进行数据治理、删除空值等。
黄金级别是清理数据的最终级别,应可供不同应用程序或机器学习平台使用。
每个步骤之间都有一个作业,应在前一级别的数据上运行以清理数据并为下一步做好准备。
请查看此链接以进行深入讨论:https://databricks.com/blog/2019/08/14/productizing-machine-learning-with-delta-lake.html
| 归档时间: |
|
| 查看次数: |
1661 次 |
| 最近记录: |