实木复合地板文件的大小，firehose与火花

Question

实木复合地板文件的大小，firehose与火花

jph*_*jph 5 apache-spark parquet pyarrow amazon-kinesis-firehose

我通过两种方法生成Parquet文件：Kinesis Firehose和Spark作业。它们都被写入S3上的相同分区结构中。可以使用相同的Athena表定义查询两组数据。两者都使用gzip压缩。

但是，我注意到，Spark生成的Parquet文件大约是Firehose文件的3倍。有什么理由是这样吗？使用Pyarrow加载它们时，我确实注意到一些架构和元数据差异：

>>> import pyarrow.parquet as pq
>>> spark = pq.ParquetFile('<spark object name>.gz.parquet')
>>> spark.metadata
<pyarrow._parquet.FileMetaData object at 0x101f2bf98>
  created_by: parquet-mr version 1.8.3 (build aef7230e114214b7cc962a8f3fc5aeed6ce80828)
  num_columns: 4
  num_rows: 11
  num_row_groups: 1
  format_version: 1.0
  serialized_size: 1558
>>> spark.schema
<pyarrow._parquet.ParquetSchema object at 0x101f2f438>
uri: BYTE_ARRAY UTF8
dfpts.list.element: BYTE_ARRAY UTF8
udids.list.element: BYTE_ARRAY UTF8
uuids.list.element: BYTE_ARRAY UTF8

>>> firehose = pq.ParquetFile('<firehose object name>.parquet')
>>> firehose.metadata
<pyarrow._parquet.FileMetaData object at 0x10fc63458>
  created_by: parquet-mr version 1.8.1 (build 4aba4dae7bb0d4edbcf7923ae1339f28fd3f7fcf)
  num_columns: 4
  num_rows: 156
  num_row_groups: 1
  format_version: 1.0
  serialized_size: 1017
>>> firehose.schema
<pyarrow._parquet.ParquetSchema object at 0x10fc5e7b8>
udids.bag.array_element: BYTE_ARRAY UTF8
dfpts.bag.array_element: BYTE_ARRAY UTF8
uuids.bag.array_element: BYTE_ARRAY UTF8
uri: BYTE_ARRAY UTF8

Run Code Online (Sandbox Code Playgroud)

模式差异可能是罪魁祸首吗？还有吗

这两个特定的文件并不包含完全相同的数据，但是基于我的Athena查询，Firehose文件中所有行的所有列表的总基数大约是Spark文件中的2.5倍。

编辑添加：

我写了以下内容，基本上将每个实木复合地板文件的内容转储到stdout每行一行：

import sys
import pyarrow.parquet as pq

table = pq.read_table(sys.argv[1])
pydict = table.to_pydict()
for i in range(0, table.num_rows):
    print(f"{pydict['uri'][i]}, {pydict['dfpts'][i]}, {pydict['udids'][i]}, {pydict['uuids'][i]}")

Run Code Online (Sandbox Code Playgroud)

然后，我针对每个实木复合地板文件运行该文件，并将输出通过管道传输到文件。以下是原始两个文件的大小，将上述python代码指向每个文件的输出以及该输出的gzip版本：

-rw-r--r--  1 myuser  staff  1306337 Jun 28 16:19 firehose.parquet
-rw-r--r--  1 myuser  staff  8328156 Jul  2 15:09 firehose.printed
-rw-r--r--  1 myuser  staff  5009543 Jul  2 15:09 firehose.printed.gz
-rw-r--r--  1 myuser  staff  1233761 Jun 28 16:23 spark.parquet
-rw-r--r--  1 myuser  staff  3213528 Jul  2 15:09 spark.printed
-rw-r--r--  1 myuser  staff  1951058 Jul  2 15:09 spark.printed.gz

Run Code Online (Sandbox Code Playgroud)

请注意，两个实木复合地板文件的大小大致相同，但是firehose文件的“打印”内容大约是spark文件中“打印”内容的2.5倍。它们几乎可以压缩。

那么：如果不是原始数据，那么将占用Spark Parquet文件中的所有空间吗？

编辑添加：

以下是“ parquet-tools meta”的输出。每列的压缩率看起来相似，但是firehose文件的每个未压缩字节包含更多的值。对于“ dfpts”列：

消防水带：

SZ:667849/904992/1.36 VC:161475

Run Code Online (Sandbox Code Playgroud)

火花：

SZ:735561/1135861/1.54 VC:62643

Run Code Online (Sandbox Code Playgroud)

Parquet-Tools元输出：

file:            file:/Users/jh01792/Downloads/firehose.parquet 
creator:         parquet-mr version 1.8.1 (build 4aba4dae7bb0d4edbcf7923ae1339f28fd3f7fcf) 

file schema:     hive_schema 
--------------------------------------------------------------------------------
udids:           OPTIONAL F:1 
.bag:            REPEATED F:1 
..array_element: OPTIONAL BINARY L:STRING R:1 D:3
dfpts:           OPTIONAL F:1 
.bag:            REPEATED F:1 
..array_element: OPTIONAL BINARY L:STRING R:1 D:3
uuids:           OPTIONAL F:1 
.bag:            REPEATED F:1 
..array_element: OPTIONAL BINARY L:STRING R:1 D:3
uri:             OPTIONAL BINARY L:STRING R:0 D:1

row group 1:     RC:156 TS:1905578 OFFSET:4 
--------------------------------------------------------------------------------
udids:           
.bag:            
..array_element:  BINARY GZIP DO:0 FPO:4 SZ:421990/662241/1.57 VC:60185 ENC:RLE,PLAIN_DICTIONARY ST:[num_nulls: 58, min/max not defined]
dfpts:           
.bag:            
..array_element:  BINARY GZIP DO:0 FPO:421994 SZ:667849/904992/1.36 VC:161475 ENC:RLE,PLAIN_DICTIONARY ST:[num_nulls: 53, min/max not defined]
uuids:           
.bag:            
..array_element:  BINARY GZIP DO:0 FPO:1089843 SZ:210072/308759/1.47 VC:39255 ENC:RLE,PLAIN_DICTIONARY ST:[num_nulls: 32, min/max not defined]
uri:              BINARY GZIP DO:0 FPO:1299915 SZ:5397/29586/5.48 VC:156 ENC:BIT_PACKED,RLE,PLAIN_DICTIONARY ST:[num_nulls: 0, min/max not defined]

file:        file:/Users/jh01792/Downloads/spark.parquet 
creator:     parquet-mr version 1.8.3 (build aef7230e114214b7cc962a8f3fc5aeed6ce80828) 
extra:       org.apache.spark.sql.parquet.row.metadata = {"type":"struct","fields":[{"name":"uri","type":"string","nullable":false,"metadata":{}},{"name":"dfpts","type":{"type":"array","elementType":"string","containsNull":true},"nullable":true,"metadata":{}},{"name":"udids","type":{"type":"array","elementType":"string","containsNull":true},"nullable":true,"metadata":{}},{"name":"uuids","type":{"type":"array","elementType":"string","containsNull":true},"nullable":true,"metadata":{}}]} 

file schema: spark_schema 
--------------------------------------------------------------------------------
uri:         REQUIRED BINARY L:STRING R:0 D:0
dfpts:       OPTIONAL F:1 
.list:       REPEATED F:1 
..element:   OPTIONAL BINARY L:STRING R:1 D:3
udids:       OPTIONAL F:1 
.list:       REPEATED F:1 
..element:   OPTIONAL BINARY L:STRING R:1 D:3
uuids:       OPTIONAL F:1 
.list:       REPEATED F:1 
..element:   OPTIONAL BINARY L:STRING R:1 D:3

row group 1: RC:11 TS:1943008 OFFSET:4 
--------------------------------------------------------------------------------
uri:          BINARY GZIP DO:0 FPO:4 SZ:847/2530/2.99 VC:11 ENC:PLAIN,BIT_PACKED ST:[num_nulls: 0, min/max not defined]
dfpts:       
.list:       
..element:    BINARY GZIP DO:0 FPO:851 SZ:735561/1135861/1.54 VC:62643 ENC:RLE,PLAIN_DICTIONARY ST:[num_nulls: 0, min/max not defined]
udids:       
.list:       
..element:    BINARY GZIP DO:0 FPO:736412 SZ:335289/555989/1.66 VC:23323 ENC:RLE,PLAIN_DICTIONARY ST:[num_nulls: 0, min/max not defined]
uuids:       
.list:       
..element:    BINARY GZIP DO:0 FPO:1071701 SZ:160494/248628/1.55 VC:13305 ENC:RLE,PLAIN_DICTIONARY ST:[num_nulls: 0, min/max not defined]

Run Code Online (Sandbox Code Playgroud)

Answer 1

rlu*_*uta 2

您可能应该以不同的方式提出您的问题：

为什么Firehose数据的压缩比Spark数据的压缩效率更高？

在 Parquet 中对此有几种可能的解释：

不同列值基数

除了压缩方案之外，Parquet 还尝试对您的值使用最有效的编码。特别是对于 BYTE_ARRAY，默认情况下它将尝试使用字典编码，即将每个不同的 BYTE_ARRAY 值映射到 int，然后简单地将 int 存储在列数据中（更多信息请参见此处）。如果字典变得太大，它将回退到仅存储 BYTE_ARRAY 值。

如果您的 Firehose 数据集包含的值多样性比 Spark 数据集少得多，则一个数据集可能使用高效的字典编码，而另一个数据集则没有。
排序数据

排序数据通常比未排序数据压缩得更好，因此如果您的 Firehose 列值自然排序（或者至少更频繁地重复），则 parquet 编码和 gzip 压缩将实现更好的压缩比
不同的行组大小

Parquet 将值拆分为可调整大小的行组（parquet.block.sizeSpark 中的配置）。压缩和编码应用于行组级别，因此行组越大，压缩越好，但编码可能更差（例如，您可以从字典编码切换到纯 byte_array 值），并且读取或写入时的内存要求更高。

如何查明您的情况发生了什么？

使用parquet-tools检查列的详细编码数据：

例如，在我的一个数据集上：

$ parquet-tools meta part-00015-6a77dcbe-3edd-4199-bff0-efda0f512d61.c000.snappy.parquet

...

row group 1:              RC:63076 TS:41391030 OFFSET:4
--------------------------------------------------------------------------------
options:
.list:
..element:                 BINARY SNAPPY DO:0 FPO:6042924 SZ:189370/341005/1,80 VC:269833 ENC:RLE,PLAIN_DICTIONARY ST:[no stats for this column]

...

row group 2:              RC:28499 TS:14806649 OFFSET:11648146
--------------------------------------------------------------------------------
options:
.list:
..element:                 BINARY SNAPPY DO:0 FPO:13565454 SZ:78631/169832/2,16 VC:144697 ENC:RLE,PLAIN_DICTIONARY ST:[no stats for this column]

Run Code Online (Sandbox Code Playgroud)

ENC列数据上的属性为您提供了该属性为您提供的列（在本例中为字典）所使用的编码以及SZ编码compressed size/uncompressed size/compression ratio值VC的数量。

您可以在我的示例中看到，行组 2 中的压缩率比行组 1 中的压缩率稍好，这仅仅是因为数据分布。

更新：

查看您提供的统计信息，您可以看到dfpts数据集中的列的平均编码值大小为 904992/161475 = 5.6 字节，而 Spark 版本的平均编码值大小为 1135861/62643 = 18.13 字节，即使两者都是相同的字典编码。这可能意味着 RLE 在您的 Firehose 数据集上效率更高，因为您有很多重复值或更少的不同值。如果您dfpts在保存到 parquet 之前对 Spark 中的列进行排序，则可能会获得与 Firehose 数据类似的编码率。

归档时间：	6 年，8 月前
查看次数：	192 次
最近记录：	6 年，7 月前