我试图找到使用Python/Pandas有效地在磁盘上写入大数据帧(250MB +)的最佳方法.我已经尝试了Python中用于数据分析的所有方法,但性能一直非常令人失望.
这是探索将我们当前的分析/数据管理环境从Stata迁移到Python的大型项目的一部分.当我将测试中的读/写时间与Stata中的读/写时间进行比较时,Python和Pandas的使用时间通常超过20倍.
我强烈怀疑我是问题,而不是Python或Pandas.
有什么建议?
使用HDFStore是你最好的选择(书中没有很多内容,并且已经发生了很大变化).您会发现性能比任何其他序列化方法都要好.
| 归档时间: |
|
| 查看次数: |
6727 次 |
| 最近记录: |