CSV转换为Pandas中的羽毛,并且将行切成薄片

MKJ*_*MKJ 5 python pandas feather

我正在处理CSV中的巨大数据集(5,000万行)。我试图对其进行切片并将其另存为羽毛格式,以便在稍后加载羽毛格式时节省一些内存。

作为一种解决方法,我将数据分块加载为CSV文件,然后将其合并到一个数据帧中。

到目前为止,这是我尝试过的:

df[2000000:4000000].to_feather('name')
Run Code Online (Sandbox Code Playgroud)

我遇到以下错误:

ValueError: feather does not support serializing a non-default index for the index; you can .reset_index() to make the index into column(s)
Run Code Online (Sandbox Code Playgroud)

然后,我尝试重置索引,但是仍然出现相同的错误。

Lue*_*Mar 5

尝试使用.loc

df.loc[2000000:4000000].reset_index().to_feather("./myfeather.ftr")
Run Code Online (Sandbox Code Playgroud)

您必须重置索引才能将数据帧保存为羽毛格式。对我有用。


小智 0

将所需的数据切片保存到 CSV df.to_csv(),再次从 CSV 加载数据,然后保存为 Feather 格式。这个方法对我有用

  • 这似乎是执行“df.reset_index()”的一种迂回方式,对于羽毛试图避免的非常大的数据帧也需要一些时间 (2认同)