没有 Databricks 运行时的 Delta Lake

use*_*359 7 hdfs apache-spark databricks delta-lake

可以使用 Delta Lake 而不依赖于 Databricks Runtime 吗?(我的意思是,是否可以仅在本地使用 delta-lake 和 HDFS 和 Spark?)如果不能,您能否从技术角度详细说明为什么会这样?

Swa*_*ule 7

是的,Delta Lake 已由 Databricks 开源(https://delta.io/)。我正在使用 deltalake(0.6.1) 以及 apache Spark(2.4.5) 和 S3。许多其他集成也可用于适应现有的技术堆栈,例如 hive、presto、athena 等的集成。 连接器:https: //github.com/delta-io/connectors 集成: https: //docs.delta.io/latest/ presto-integration.html & https://docs.delta.io/latest/integrations.html


use*_*359 3

根据此https://vimeo.com/338100834,可以在没有Databricks Runtime的情况下使用Delta Lake。Delta Lake 只是一个库,它通过在每个表之外维护一个特殊的事务日志来“知道”如何以事务方式写入和读取表(镶木地板文件的集合)。当然,为了使用此类表,需要用于外部应用程序(例如 hive)的特殊连接器。否则,无法执行事务和一致性保证。