在字符串数据中，镶木地板文件的 csv 大小是否更大？

Question

在字符串数据中，镶木地板文件的 csv 大小是否更大？

Ang*_*des 1 python csv pandas parquet pyarrow

我有一个大小等于 170kB 的 csv，当我将它们转换为镶木地板文件时，大小为 1.2MB。数据结构是带有字符串的 12 列。

import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

csv_filename = "../files/test.csv"
parquet_filename = '../files/sample.parquet'
chunksize = 1
pqwriter = None
for i, df in enumerate(pd.read_csv(csv_filename, delimiter='_;_', chunksize=chunksize)):
    #df = df.astype(str)
    table = pa.Table.from_pandas(df=df)
    # for the first chunk of records
    if i == 0:
        # create a parquet write object giving it an output file
        pqwriter = pq.ParquetWriter(parquet_filename, table.schema, compression='gzip', use_dictionary=False)
    pqwriter.write_table(table)

# close the parquet writer
if pqwriter:
    pqwriter.close()

df = pd.read_parquet(parquet_filename)
print(df.memory_usage(deep=True))

Run Code Online (Sandbox Code Playgroud)

更新 1：我尝试过fastparquet，大小为 933kB。

for i, df in enumerate(pd.read_csv(csv_filename, delimiter='_;_', chunksize=chunksize)):
    fastparquet.write(parquet_filename, df, compression='gzip', append=True)

Run Code Online (Sandbox Code Playgroud)

更新 2：该参数chunksize对文件大小有影响。如果较大，则尺寸会减小。使用chunksize等于 30，大小为 76kB。

Answer 1

Uwe*_*orn 5

这主要归结为使用极小的块大小，从而禁用 Parquet 格式的柱状性质（以及所有好处）。Parquet 文件中的块是强制中断的，不会在两个块上应用优化。

鉴于 170KB 对于 Parquet 来说是一个非常小的尺寸，你根本不应该分块。通常，合理的块大小是您的数据生成大小为 128MiB 的块，在某些情况下较小的块是有意义的，但对于大多数用例，单个块或大小为 128MiB 的块是正确的选择。

在块内，Parquet 应用各种压缩和编码技术来高效地（CPU 和大小效率）逐列存储数据。这些技术可以处理的数据越多，就越有效。将块大小设置为单个数字值会消除这些好处，但也会增加文件本身的开销，因为 Parquet 还存储标题和一些元数据，例如每个列块的列统计信息。当 chunk_size=1 时，这意味着每行将在文件中存储 3-4 次，甚至不考虑额外的元数据标题。

归档时间：	5 年，6 月前
查看次数：	849 次
最近记录：	5 年，6 月前