小编Eri*_*ker的帖子

我对Spark + Delta有很多疑问。

1）Databricks建议使用3层（青铜，银，金），但是建议在哪一层用于机器学习，为什么？我想他们建议在黄金层中准备好干净的数据。

2）如果我们将这三层的概念抽象化，是否可以将青铜层视为数据湖，将银层视为数据库，将金层视为数据仓库？我的意思是功能。

3）三角洲建筑是商业术语，或者是Kappa建筑的演变，或者是Lambda和Kappa建筑的新趋势建筑？（Delta + Lambda建筑）与Kappa建筑之间有何区别？

4）在许多情况下，Delta + Spark的扩展量通常比大多数数据库要便宜得多，而且通常情况下，价格便宜得多，而且如果我们进行正确的调整，我们可以获得快近2倍的查询结果。我知道将实际趋势数据仓库与Feature / Agg数据存储区进行比较非常复杂，但是我想知道如何进行此比较？

5）我曾经使用Kafka，Kinesis或Event Hub进行流处理，我的问题是，如果我们用Delta Lake表替换这些工具，会发生什么样的问题（我已经知道一切都取决于很多事情，但是我希望对此有一个大致的了解）。

4
推荐指数

1
解决办法

955
查看次数

小编Eri_ker的帖子