LakeFS、Hudi、Delta Lake合并以及合并冲突

ale*_*oid 13 data-lake delta-lake apache-hudi lakefs data-lakehouse

我正在阅读有关 LakeFS 的文档,现在还不清楚什么是 LakeFS 的合并甚至合并冲突。

假设我使用 Apache Hudi 对单个表提供 ACID 支持。我想引入多表 ACID 支持,为此我想将 LakeFS 与 Hudi 一起使用。

如果我理解正确的话,lakeFS 是一个与数据无关的解决方案,对数据本身一无所知。LakeFS 仅建立边界(版本控制)并以某种方式调节对数据的并发访问。

所以合理的问题是——如果 LakeFS 与数据无关,它如何支持合并操作?合并本身对 LakeFS 意味着什么?那里有可能发生合并冲突吗?

小智 7

你确实正确地理解了一切。您可以在分支模型页面中看到 ,lakeFS 目前与数据无关,并且仅依赖于分层目录结构。当两个分支更新同一个文件时,就会发生冲突。此行为适合大多数数据工程师 CI/CD 用例。

如果您使用 Delta Lake 并从两个不同的分支对同一个表进行更改,仍然会发生冲突,因为这两个分支更改了日志文件。为了解决冲突,您需要放弃其中一个变更集。诚然,这不是最好的用户体验,目前正在开发中。您可以在路线图文档中阅读更多相关信息。