Geo*_*ina 3 python vector large-data-volumes matrix data-structures
我需要创建大约200万个向量,每个向量1000个插槽(每个插槽只包含一个整数).
处理这些数据的最佳数据结构是什么?可能是我高估了所涉及的处理/内存量.
我需要迭代一组文件(总共大约34.5GB)并且每次在一行上遇到200万个项目中的一个(每个对应一个向量)时更新向量.
我可以轻松地为此编写代码,但我知道它不足以处理数据量,这就是为什么我要问你专家.:)
最好的,乔治娜
您的计算机可能受内存限制.没有清理正在运行的程序:
a = numpy.zeros((1000000,1000),dtype=int)
Run Code Online (Sandbox Code Playgroud)
不适合记忆.但总的来说,如果你可以解决问题,以便你不需要一次在内存中的整个数组,或者你可以使用稀疏表示,我会去numpy(scipy为稀疏表示).
此外,您可以考虑存储在数据hdf5用h5py或pytables或netcdf4与netcdf4-python磁盘上,然后访问您需要的部分.
| 归档时间: |
|
| 查看次数: |
1291 次 |
| 最近记录: |