没有 Databricks 运行时的 Delta Lake

Question

没有 Databricks 运行时的 Delta Lake

use*_*359 7 hdfs apache-spark databricks delta-lake

可以使用 Delta Lake 而不依赖于 Databricks Runtime 吗？（我的意思是，是否可以仅在本地使用 delta-lake 和 HDFS 和 Spark？）如果不能，您能否从技术角度详细说明为什么会这样？

Answer 1

是的，Delta Lake 已由 Databricks 开源（https://delta.io/）。我正在使用 deltalake(0.6.1) 以及 apache Spark(2.4.5) 和 S3。许多其他集成也可用于适应现有的技术堆栈，例如 hive、presto、athena 等的集成。连接器：https: //github.com/delta-io/connectors 集成： https: //docs.delta.io/latest/ presto-integration.html & https://docs.delta.io/latest/integrations.html

Answer 2

use*_*359 3

根据此https://vimeo.com/338100834，可以在没有Databricks Runtime的情况下使用Delta Lake。Delta Lake 只是一个库，它通过在每个表之外维护一个特殊的事务日志来“知道”如何以事务方式写入和读取表（镶木地板文件的集合）。当然，为了使用此类表，需要用于外部应用程序（例如 hive）的特殊连接器。否则，无法执行事务和一致性保证。

归档时间：	5 年，9 月前
查看次数：	7026 次
最近记录：	2 年，8 月前