小编Ser*_*rge的帖子

使用 dask 将 parquet 文件拆分为较小的块

我正在尝试使用 DASK 和以下代码片段分割镶木地板文件

import dask.dataframe as pd
df = pd.read_parquet(dataset_path, chunksize="100MB")
df.repartition(partition_size="100MB")
pd.to_parquet(df,output_path)
Run Code Online (Sandbox Code Playgroud)

我的输入中只有一个物理文件,即 file.parquet

该脚本的输出也只有一个文件,即part.0.parquet。

根据partition_size和chunksize参数,我应该在输出中有多个文件

任何帮助,将不胜感激

python dask data-science

3
推荐指数
1
解决办法
7904
查看次数

标签 统计

dask ×1

data-science ×1

python ×1