小编sha*_*359的帖子

我正在尝试在云对象存储上创建冰山表格式。

在下图中我们可以看到冰山表格式需要一个目录。该目录存储当前元数据指针，该指针指向最新的元数据。Iceberg 快速入门文档列出了 JDBC、Hive MetaStore、AWS Glue、Nessie 和 HDFS 作为可以使用的目录列表。

我的目标是将当前元数据指针（version-hint.text）以及表数据的其余部分（元数据、清单列表、清单、镶木地板数据文件）存储在对象存储本身中。

\n
以HDFS为目录，table\xe2\x80\x99s元数据文件夹中有一个名为version-hint.text的文件，其内容为当前元数据文件的版本号。
\n

将 HDFS 视为可能的目录之一，我应该能够使用 ADLS 或 S3 来存储当前元数据指针以及其余数据。例如：spark 使用 ABFSS 接口连接到 ADLS 并创建冰山表和目录。

我的问题是

\n
版本提示文件用于 Hadoop 表，之所以这样命名，是因为它们适用于 HDFS。我们还将它们用于本地 FS\n测试，但它们不能与 S3 安全地同时使用。对于 S3，您需要一个元存储来在交换表元数据位置时强制执行原子性。您可以使用iceberg-hive 中的\nHive 元存储。
\n

\n
我们遍历可能的元数据位置，仅当\n没有新快照可用时才停止
\n

有人可以澄清一下吗？

我正在尝试使用 Iceberg 进行 POC。此时的要求是能够至少每10分钟将新数据从数据块写入到表中。这个频率将来可能会增加。

数据一旦写入，将被databricks和dremio读取。

0
推荐指数

1
解决办法

1942
查看次数

小编sha_359的帖子