Python:处理大量数据.Scipy还是Rpy?如何?

Ant*_*ong 7 python numpy r memory-mapped-files scipy

在我的python环境中,已经安装了Rpy和Scipy包.

我想解决的问题是这样的:

1)大量财务数据存储在文本文件中.无法加载到Excel

2)我需要总结某些字段并得到总数.

3)我需要根据总数显示前10行.

哪个包(Scipy或Rpy)最适合此任务?

如果是这样,你能否提供一些可以帮助我实施解决方案的指针(例如文档或在线示例)?

速度是一个问题.理想情况下scipy和Rpy可以处理大文件,即使文件太大而无法安装到内存中

so1*_*311 5

Rpy或Scipy都不是必需的,尽管numpy可能会让它变得容易一些.这个问题似乎非常适合逐行解析器.只需打开文件,将一行读入一个字符串,将该行扫描成一个数组(请参阅numpy.fromstring),更新您的运行总和并移至下一行.


Ite*_*tor 2

正如 @gsk3 所指出的,bigmemory这是一个很棒的软件包,还有软件包biganalyticsbigtabulate(还有更多,但这些值得检查)。还有ff,虽然不太容易使用。

R 和 Python 的共同点是支持 HDF5(请参阅R 中的ncdf4NetCDF4包),这使得访问磁盘上的海量数据集变得非常快速且轻松。就我个人而言,我主要使用bigmemory,尽管这是 R 特有的。由于 HDF5 在 Python 中可用并且速度非常非常快,因此它可能是您在 Python 中的最佳选择。