有效地将大型Pandas数据帧写入磁盘

use*_*791 5 python pandas

我试图找到使用Python/Pandas有效地在磁盘上写入大数据帧(250MB +)的最佳方法.我已经尝试了Python中用于数据分析的所有方法,但性能一直非常令人失望.

这是探索将我们当前的分析/数据管理环境从Stata迁移到Python的大型项目的一部分.当我将测试中的读/写时间与Stata中的读/写时间进行比较时,Python和Pandas的使用时间通常超过20倍.

我强烈怀疑我是问题,而不是Python或Pandas.

有什么建议?

Jef*_*eff 9

使用HDFStore是你最好的选择(书中没有很多内容,并且已经发生了很大变化).您会发现性能比任何其他序列化方法都要好.

  • 事实上,HDF5证明效果很好,特别是如果使用了正确的选项.使用blosc压缩,chunksize = 4,并且complevel = 3证明是最快的. (2认同)