numpy数组的Python内存使用情况

Edd*_*heB 138 python numpy sys

我正在使用python来分析一些大文件,而且我遇到了内存问题,所以我一直在使用sys.getsizeof()来尝试跟踪使用情况,但是numpy数组的行为很奇怪.这是一个涉及我必须打开的反照率地图的例子:

>>> import numpy as np
>>> import struct
>>> from sys import getsizeof
>>> f = open('Albedo_map.assoc', 'rb')
>>> getsizeof(f)
144
>>> albedo = struct.unpack('%df' % (7200*3600), f.read(7200*3600*4))
>>> getsizeof(albedo)
207360056
>>> albedo = np.array(albedo).reshape(3600,7200)
>>> getsizeof(albedo)
80
Run Code Online (Sandbox Code Playgroud)

那么数据仍然存在,但是对象的大小,一个3600x7200像素的映射,从大约200 Mb变为80字节.我希望我的记忆问题已经结束,只是将所有内容转换为numpy数组,但我觉得这种行为,如果是真的,会在某种程度上违反信息理论或热力学的某些定律,或者其他什么,所以我是倾向于认为getsizeof()不适用于numpy数组.有任何想法吗?

GWW*_*GWW 204

您可以使用array.nbytesnumpy数组,例如:

>>> import numpy as np
>>> from sys import getsizeof
>>> a = [0] * 1024
>>> b = np.array(a)
>>> getsizeof(a)
8264
>>> b.nbytes
8192
Run Code Online (Sandbox Code Playgroud)

  • `round(getsizeof(a) / 1024 / 1024,2)` 获取 MB (9认同)
  • `b.__sizeof__()` 等价于 `sys.getsizeof(b)` (5认同)
  • @palash 不,[`sys.getsizeof()`](https://docs.python.org/3/library/sys.html#sys.getsizeof) 做了更多的事情:*“如果给出,`default`将如果对象不提供检索大小的方法,则返回。...`getsizeof()` 调用对象的 `__sizeof__` 方法,如果对象由垃圾收集器管理,则会增加额外的垃圾收集器开销。"* 一般来说,魔术方法并不等同于相关函数。另一个例子,请参见[是否存在`len(someObj)`不调用`someObj`的`__len__`函数的情况?](/q/496009/4518341) (2认同)

El *_*rce 5

nbytes字段将为您提供数组中所有元素的大小(以字节为单位)numpy.array

size_in_bytes = my_numpy_array.nbytes
Run Code Online (Sandbox Code Playgroud)

请注意,这并不测量“数组对象的非元素属性”,因此,以字节为单位的实际大小可以比此大几个字节。


Ram*_*nez 5

为了给接受的答案添加更多内容,总结并提供一个更透明的内存示例(注意int8是一个字节):

import numpy as np
from sys import getsizeof
a = np.ones(shape=(1000, 1), dtype='int8')
b = a.T 
a.nbytes, getsizeof(a), b.nbytes, getsizeof(b), getsizeof(b.base)
Run Code Online (Sandbox Code Playgroud)

将产生以下输出:

(1000, 1128, 1000, 128, 1128)
Run Code Online (Sandbox Code Playgroud)
  • a.nbytes= 1000:给出数字元素的大小:1000 个数字元素。
  • getsizeof(a) = 1128:给出数字元素和参考机械的大小。
  • b.nbtyes:数字元素的大小与内存位置无关(不受 b 的视图状态影响)
  • getsizeof(b) = 128:只计算参考机械的大小,受视图状态影响。
  • getsizeof(b.base) = 1128:这会计算数字元素加上参考机械的大小,与视图状态无关。

总结:如果您想知道数字元素的大小,请使用array.nbytes它,无论是否有视图,它都会独立工作。另一方面,如果您希望使用数字元素的大小加上整个参考机制来getsizeof(array.base)获得独立于视图状态的可靠估计。