Apache Spark + Delta Lake概念

Question

Apache Spark + Delta Lake概念

Eri*_*ker 4 data-warehouse apache-kafka apache-spark databricks delta-lake

我对Spark + Delta有很多疑问。

1）Databricks建议使用3层（青铜，银，金），但是建议在哪一层用于机器学习，为什么？我想他们建议在黄金层中准备好干净的数据。

2）如果我们将这三层的概念抽象化，是否可以将青铜层视为数据湖，将银层视为数据库，将金层视为数据仓库？我的意思是功能。

3）三角洲建筑是商业术语，或者是Kappa建筑的演变，或者是Lambda和Kappa建筑的新趋势建筑？（Delta + Lambda建筑）与Kappa建筑之间有何区别？

4）在许多情况下，Delta + Spark的扩展量通常比大多数数据库要便宜得多，而且通常情况下，价格便宜得多，而且如果我们进行正确的调整，我们可以获得快近2倍的查询结果。我知道将实际趋势数据仓库与Feature / Agg数据存储区进行比较非常复杂，但是我想知道如何进行此比较？

5）我曾经使用Kafka，Kinesis或Event Hub进行流处理，我的问题是，如果我们用Delta Lake表替换这些工具，会发生什么样的问题（我已经知道一切都取决于很多事情，但是我希望对此有一个大致的了解）。

Answer 1

Joe*_*den 5

1）由您的数据科学家来决定。他们应该在白银和黄金地区工作很自在，一些更高级的数据科学家将希望返回原始数据并解析出可能未包含在银/金表中的其他信息。

2）青铜=原始格式的原始数据/三角洲湖泊格式。银=三角洲湖泊中经过消毒处理的数据。金=根据业务需求，可通过三角洲湖泊访问或推送到数据仓库的数据。

3）Delta体系结构是lambda体系结构的简单版本。目前，Delta体系结构是一个商业术语，我们将在未来看到这种变化。

4）Delta Lake + Spark是价格合理的最具扩展性的数据存储机制。欢迎您根据业务需求测试性能。Delta Lake将比任何用于存储的数据仓库便宜得多。您对数据访问和延迟的要求将是一个更大的问题。

5）Kafka，Kinesis或Eventhub是从边缘到数据湖获取数据的来源。Delta Lake可以充当流应用程序的源和下沉。使用增量作为源实际上几乎没有问题。三角洲湖泊源生活在Blob存储上，因此我们实际上解决了基础结构问题的许多问题，但增加了Blob存储的一致性问题。Delta Lake作为流作业的来源比kafka / kinesis / event hub具有更大的可扩展性，但是您仍然需要那些工具才能将数据从边缘获取到delta lake中。

归档时间：	6 年，9 月前
查看次数：	955 次
最近记录：	6 年，9 月前