1)Databricks建议使用3层(青铜,银,金),但是建议在哪一层用于机器学习,为什么?我想他们建议在黄金层中准备好干净的数据。
2)如果我们将这三层的概念抽象化,是否可以将青铜层视为数据湖,将银层视为数据库,将金层视为数据仓库?我的意思是功能。
3)三角洲建筑是商业术语,或者是Kappa建筑的演变,或者是Lambda和Kappa建筑的新趋势建筑?(Delta + Lambda建筑)与Kappa建筑之间有何区别?
4)在许多情况下,Delta + Spark的扩展量通常比大多数数据库要便宜得多,而且通常情况下,价格便宜得多,而且如果我们进行正确的调整,我们可以获得快近2倍的查询结果。我知道将实际趋势数据仓库与Feature / Agg数据存储区进行比较非常复杂,但是我想知道如何进行此比较?
5)我曾经使用Kafka,Kinesis或Event Hub进行流处理,我的问题是,如果我们用Delta Lake表替换这些工具,会发生什么样的问题(我已经知道一切都取决于很多事情,但是我希望对此有一个大致的了解)。
data-warehouse apache-kafka apache-spark databricks delta-lake