Kri*_*has 6 java hadoop parquet
我正在使用以下代码创建ParquetWriter并向其中写入记录。
ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE);
final GenericRecord record = new GenericData.Record(avroSchema);
Run Code Online (Sandbox Code Playgroud)
parquetWriter.write(record);
Run Code Online (Sandbox Code Playgroud)
但是它仅允许创建新文件(在指定路径下)。有没有一种方法可以将数据附加到现有的镶木文件中(在路径中)?在我的情况下,缓存parquetWriter是不可行的。
blu*_*zcz 14
有一个名为 append 的 Spark API SaveMode:https ://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/SaveMode.html我相信它可以解决您的问题。
使用示例:
df.write.mode('append').parquet('parquet_data_file')
Run Code Online (Sandbox Code Playgroud)
将数据附加到现有镶木地板文件中很棘手。至少没有简单的方法可以做到这一点(大多数已知的库不支持这一点)。
Parquet 设计确实支持附加功能。追加数据的一种方法是写入新的行组,然后重新计算统计信息并更新统计信息。尽管对于小更新来说会很糟糕(将导致压缩不良和太多的小行组)。
然而,大多数库并未实现这一点。这是我发现的关于相同内容的有趣讨论。
我将因“无法修复”而关闭。尝试修改现有文件(覆盖现有文件页脚)是一个相当大的蠕虫,并且会给代码库增加一堆复杂性,以使用部分写入的文件初始化各种类
这也是Spark 的一个功能请求,但不会实现。
我将其视为无效而关闭。在分布式系统中附加到现有文件并不是一个好主意,特别是考虑到我们可能同时有两个写入器。
此线程上的其他答案- 这只是在同一目录下创建新文件。然而,据我看来,这可能是大多数人唯一可行的选择。
我们还有什么其他选择?
编辑:我确实遇到了一个基于Python的库(fastparquet),它允许附加。将来也可能通过其他语言(例如 Java)的其他库来实现同样的功能。
小智 -7
Parquet 是一个列式文件,它优化了将所有列写入在一起。如果进行任何编辑,则需要重写文件。
来自维基
面向列的数据库将一列的所有值序列化在一起,然后是下一列的值,依此类推。对于我们的示例表,数据将以这种方式存储:
10:001,12:002,11:003,22:004;
Smith:001,Jones:002,Johnson:003,Jones:004;
Joe:001,Mary:002,Cathy:003,Bob:004;
40000:001,50000:002,44000:003,55000:004;
Run Code Online (Sandbox Code Playgroud)
一些链接
https://en.wikipedia.org/wiki/Column-oriented_DBMS