相关疑难解决方法(0)

拆分大型pandas数据帧

我有一个423244行的大型数据帧.我想将其拆分为4.我尝试了下面的代码,它给出了一个错误?ValueError: array split does not result in an equal division

for item in np.split(df, 4):
    print item
Run Code Online (Sandbox Code Playgroud)

如何将此数据帧拆分为4组?

python pandas

51
推荐指数
9
解决办法
8万
查看次数

pandas df.to_parquet 写入多个较小的文件

是否可以使用 Pandas 的DataFrame.to_parquet功能将写入拆分为多个具有近似所需大小的文件?

我有一个非常大的 DataFrame (100M x 100),并且正在用来df.to_parquet('data.snappy', engine='pyarrow', compression='snappy')写入一个文件,但这会产生一个大约 4GB 的文件。相反,我希望将其分成许多约 100MB 的文件。

save pandas snappy parquet pyarrow

15
推荐指数
2
解决办法
2万
查看次数

标签 统计

pandas ×2

parquet ×1

pyarrow ×1

python ×1

save ×1

snappy ×1