为什么这个numpy数组太大而无法加载?

ato*_*3ls 12 python file-io numpy

我有一个3.374Gb的npz文件myfile.npz.

我可以阅读它并查看文件名:

a = np.load('myfile.npz')
a.files
Run Code Online (Sandbox Code Playgroud)

['arr_1','arr_0']
Run Code Online (Sandbox Code Playgroud)

我可以在'arr_1'中读到

a1=a['arr_1']
Run Code Online (Sandbox Code Playgroud)

但是,我无法加载arr_0或读取其形状:

a1=a['arr_0']
a['arr_0'].shape
Run Code Online (Sandbox Code Playgroud)

上述两个操作都会出现以下错误:

ValueError: array is too big
Run Code Online (Sandbox Code Playgroud)

我有16Gb RAM,其中8.370Gb可用.所以问题似乎与记忆无关.我的问题是:

  1. 我应该能够阅读此文件吗?

  2. 谁能解释这个错误?

  3. 我一直在寻找使用np.memmap来解决这个问题 - 这是一种合理的方法吗?

  4. 我应该使用什么调试方法?

编辑:

我可以访问具有更多RAM(48GB)的计算机并加载它.在dtype实际上complex128和未压缩的内存a['arr_0']是5750784000个字节.似乎可能需要RAM开销.无论是那个或我预测的可用内存量是错误的(我使用了Windows sysinternals RAMmap).

ali*_*i_m 3

一个np.complex128具有维度的数组(200, 1440, 3, 13, 32)在未压缩的情况下应该占用大约 5.35GiB,因此如果您确实有 8.3GB 的可用可寻址内存,那么原则上您应该能够加载该数组。

但是,根据您在下面评论中的回复,您正在使用 32 位版本的 Python 和 numpy。在 Windows 中,32 位进程最多只能寻址 2GB 内存(如果使用该标志编译二进制文件,则为 4GB IMAGE_FILE_LARGE_ADDRESS_AWARE;大多数 32 位 Python 发行版都不是)。因此,无论您拥有多少物理内存,您的 Python 进程的地址空间都限制为 2GB。

您可以安装 64 位版本的 Python、numpy 以及您需要的任何其他 Python 库,也可以接受 2GB 的限制并尝试解决它。在后一种情况下,您可能会在磁盘上存储超过 2GB 限制的数组(例如使用np.memmap),但我建议您选择选项#1,因为在大多数情况下,内存映射数组上的操作比在内存映射数组上的操作慢得多。对于np.array完全驻留在 RAM 中的普通s。


如果您已经有另一台机器有足够的 RAM 将整个数组加载到核心内存中,那么我建议您以不同的格式保存数组(或者作为普通np.memmap二进制文件,或者更好,使用PyTablesH5py在 HDF5 文件中) 。也可以(尽管有点棘手)从文件中提取有问题的数组.npz而不将其加载到 RAM 中,这样您就可以将其作为np.memmap驻留在磁盘上的数组打开:

import numpy as np

# some random sparse (compressible) data
x = np.random.RandomState(0).binomial(1, 0.25, (1000, 1000))

# save it as a compressed .npz file
np.savez_compressed('x_compressed.npz', x=x)

# now load it as a numpy.lib.npyio.NpzFile object
obj = np.load('x_compressed.npz')

# contains a list of the stored arrays in the format '<name>.npy'
namelist = obj.zip.namelist()

# extract 'x.npy' into the current directory
obj.zip.extract(namelist[0])

# now we can open the array as a memmap
x_memmap = np.load(namelist[0], mmap_mode='r+')

# check that x and x_memmap are identical
assert np.all(x == x_memmap[:])
Run Code Online (Sandbox Code Playgroud)

  • 谢谢@ali_m,我天真地认为操作系统只会允许使用所有可用的 RAM。另外,对于将来阅读的人,我发现了[这个](http://stackoverflow.com/a/18282931/1461850)和[这个](https://msdn.microsoft.com/en-us/library/ aa366778.aspx#memory_limits) 有用 (3认同)