如何将数据附加到现有的镶木地板文件中

Question

如何将数据附加到现有的镶木地板文件中

我正在使用以下代码创建ParquetWriter并向其中写入记录。

ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE);

final GenericRecord record = new GenericData.Record(avroSchema);

Run Code Online (Sandbox Code Playgroud)

parquetWriter.write(record);

Run Code Online (Sandbox Code Playgroud)

但是它仅允许创建新文件（在指定路径下）。有没有一种方法可以将数据附加到现有的镶木文件中（在路径中）？在我的情况下，缓存parquetWriter是不可行的。

Answer 1

blu*_*zcz 14

有一个名为 append 的 Spark API SaveMode：https ://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/SaveMode.html我相信它可以解决您的问题。

使用示例：

df.write.mode('append').parquet('parquet_data_file')

Run Code Online (Sandbox Code Playgroud)

此代码通过添加新文件写入 parquet 文件夹，它不会影响现有文件 (21认同)
正如 @agonen 所说，它会创建一个新文件。有人知道是否有办法将数据附加到现有文件中？ (7认同)
由于 parquet 客户端 API 不支持 Append 怎么能 spark ？ (4认同)

Answer 2

sha*_*359 8

将数据附加到现有镶木地板文件中很棘手。至少没有简单的方法可以做到这一点（大多数已知的库不支持这一点）。

Parquet 设计确实支持附加功能。追加数据的一种方法是写入新的行组，然后重新计算统计信息并更新统计信息。尽管对于小更新来说会很糟糕（将导致压缩不良和太多的小行组）。

然而，大多数库并未实现这一点。这是我发现的关于相同内容的有趣讨论。

我将因“无法修复”而关闭。尝试修改现有文件（覆盖现有文件页脚）是一个相当大的蠕虫，并且会给代码库增加一堆复杂性，以使用部分写入的文件初始化各种类

这也是Spark 的一个功能请求，但不会实现。

我将其视为无效而关闭。在分布式系统中附加到现有文件并不是一个好主意，特别是考虑到我们可能同时有两个写入器。

此线程上的其他答案- 这只是在同一目录下创建新文件。然而，据我看来，这可能是大多数人唯一可行的选择。

我们还有什么其他选择？

每次需要更新/追加数据时，删除并重新创建整个镶木地板文件。最好预先对数据进行批处理，以减少文件重新创建的频率。
写入多个 Parquet 文件。然后在稍后阶段将它们组合起来。
写入多个 Parquet 文件。您用来读取 parquet 文件的工具可能支持将目录中的多个文件作为单个文件读取。很多大数据工具都支持这一点。注意不要写入太多小文件，这会导致读取性能很差。
切换到支持追加/更新/删除的 Iceberg/Delta 等开放表格式。但是，也不要在此处进行太多小的更新/附加/删除。

编辑：我确实遇到了一个基于Python的库（fastparquet），它允许附加。将来也可能通过其他语言（例如 Java）的其他库来实现同样的功能。

Answer 3

小智 -7

Parquet 是一个列式文件，它优化了将所有列写入在一起。如果进行任何编辑，则需要重写文件。

来自维基

面向列的数据库将一列的所有值序列化在一起，然后是下一列的值，依此类推。对于我们的示例表，数据将以这种方式存储：

10:001,12:002,11:003,22:004;
Smith:001,Jones:002,Johnson:003,Jones:004;
Joe:001,Mary:002,Cathy:003,Bob:004;
40000:001,50000:002,44000:003,55000:004;

Run Code Online (Sandbox Code Playgroud)

一些链接

https://en.wikipedia.org/wiki/Column-oriented_DBMS

https://parquet.apache.org/

以上答案不准确。Parquet 将列切成块，并允许列的一部分存储在单个文件中的多个块中，因此可以进行追加。如果您阅读镶木地板背后的设计理念 - 很明显，从块页脚结构来看，格式是为附加而设计的。 (11认同)

归档时间：	9 年，5 月前
查看次数：	16920 次
最近记录：	9 年前