永久保留Delta Lake的Delta日志交易数据

Ani*_*ngi 6 databricks azure-databricks delta-lake

我对 Delta Lake 的事务日志有一点困惑。文档中提到默认保留策略为 30 天,可以通过属性 -: 进行修改delta.logRetentionDuration=interval-string。但我不明白实际的日志文件何时从 delta_log 文件夹中删除。是当我们进行某些操作时吗?或者可能是VACCUM操作。但是,提到VACCUM操作仅删除数据文件而不删除日志。但它会删除早于指定日志保留期限的日志吗?

参考-: https: //docs.databricks.com/delta/delta-batch.html#data-retention

Kyl*_*man 3

delta-io/delta 协议.md :

By default, the reference implementation creates a checkpoint every 10 commits.
Run Code Online (Sandbox Code Playgroud)

每对文件夹进行 10 次提交,就会运行一个异步进程_delta_log。它将创建一个检查点文件并清理.crc.jsondelta.logRetentionDuration.

Checkpoints.scalacheckpoint>> 。checkpointAndCleanupDeltaLogMeetadataCleanup.scala有> 。doLogCleanupdoLogCleanupcleanUpExpiredLogs