比较NumPy对象引用

Question

比较NumPy对象引用

nan*_*yad 5 python arrays identity numpy

我想了解NumPy的行为。

当我尝试获取NumPy数组的内部数组的引用，然后将其与对象本身进行比较时，将获得返回值False。

这是示例：

In [198]: x = np.array([[1,2,3], [4,5,6]])
In [201]: x0 = x[0]
In [202]: x0 is x[0]
Out[202]: False

Run Code Online (Sandbox Code Playgroud)

另一方面，对于Python本机对象，返回的是True。

In [205]: c = [[1,2,3],[1]]    
In [206]: c0 = c[0]    
In [207]: c0 is c[0]
Out[207]: True

Run Code Online (Sandbox Code Playgroud)

我的问题是NumPy的预期行为吗？如果是这样，如果要创建NumPy数组的内部对象的引用，该怎么办。

Answer 1

hpa*_*ulj 4

二维切片

当我第一次写这篇文章时，我构建并索引了一个一维数组。但是OP正在使用二维数组，x[0]“行”也是如此，即原始数组的切片。

In [81]: arr = np.array([[1,2,3], [4,5,6]])
In [82]: arr.__array_interface__['data']
Out[82]: (181595128, False)

In [83]: x0 = arr[0,:]
In [84]: x0.__array_interface__['data']
Out[84]: (181595128, False)        # same databuffer pointer
In [85]: id(x0)
Out[85]: 2886887088
In [86]: x1 = arr[0,:]             # another slice, different id
In [87]: x1.__array_interface__['data']
Out[87]: (181595128, False)
In [88]: id(x1)
Out[88]: 2886888888

Run Code Online (Sandbox Code Playgroud)

我之前写的关于切片的内容仍然适用。对单个元素进行索引，其arr[0,0]工作方式与一维数组相同。

这个 2d arr 与 1d 具有相同的数据缓冲区arr.ravel()；形状和步幅不同。和view之间的区别仍然适用。copyitem

在 C 中实现二维数组的常见方法是使用指向其他数组的指针数组。 numpy采用一种不同的strided方法，仅使用一个平面数据数组，并使用shape和strides参数来实现横向。因此，子数组需要它自己的shape以及strides指向共享数据缓冲区的指针。

一维数组索引

我将尝试说明对数组进行索引时发生的情况：

In [51]: arr = np.arange(4)

Run Code Online (Sandbox Code Playgroud)

数组是一个具有各种属性（例如形状和数据缓冲区）的对象。缓冲区将数据存储为字节（在 C 数组中），而不是 Python 数字对象。您可以使用以下命令查看有关阵列的信息：

In [52]: np.info(arr)
class:  ndarray
shape:  (4,)
strides:  (4,)
itemsize:  4
aligned:  True
contiguous:  True
fortran:  True
data pointer: 0xa84f8d8
byteorder:  little
byteswap:  False
type: int32

Run Code Online (Sandbox Code Playgroud)

或者

In [53]: arr.__array_interface__
Out[53]: 
{'data': (176486616, False),
 'descr': [('', '<i4')],
 'shape': (4,),
 'strides': None,
 'typestr': '<i4',
 'version': 3}

Run Code Online (Sandbox Code Playgroud)

一个具有十六进制的数据指针，另一个具有十进制。我们通常不会直接引用它。

如果我索引一个元素，我会得到一个新对象：

In [54]: x1 = arr[1]
In [55]: type(x1)
Out[55]: numpy.int32
In [56]: x1.__array_interface__
Out[56]: 
{'__ref': array(1),
 'data': (181158400, False),
....}
In [57]: id(x1)
Out[57]: 2946170352

Run Code Online (Sandbox Code Playgroud)

它具有数组的一些属性，但不是全部。例如，您不能分配给它。还要注意，它的“data”值完全不同。

从同一位置进行另一个选择 - 不同的 id 和不同的数据：

In [58]: x2 = arr[1]
In [59]: id(x2)
Out[59]: 2946170336
In [60]: x2.__array_interface__['data']
Out[60]: (181143288, False)

Run Code Online (Sandbox Code Playgroud)

另外，如果我此时更改数组，它不会影响之前的选择：

In [61]: arr[1] = 10
In [62]: arr
Out[62]: array([ 0, 10,  2,  3])
In [63]: x1
Out[63]: 1

Run Code Online (Sandbox Code Playgroud)

x1并且x2不具有相同的id，因此不会与匹配is，并且它们也不使用arr数据缓冲区。没有任何记录表明这两个变量源自arr.

可以得到原始数组的slicinga ，view

In [64]: y = arr[1:2]
In [65]: y.__array_interface__
Out[65]: 
{'data': (176486620, False),
 'descr': [('', '<i4')],
 'shape': (1,),
 ....}
In [66]: y
Out[66]: array([10])
In [67]: y[0]=4
In [68]: arr
Out[68]: array([0, 4, 2, 3])
In [69]: x1
Out[69]: 1

Run Code Online (Sandbox Code Playgroud)

它的数据指针比 4 个字节大arr- 也就是说，它指向相同的缓冲区，只是指向不同的位置。改变确实y会改变arr（但独立不会改变x1）。

我什至可以制作这个项目的 0d 视图

In [71]: z = y.reshape(())
In [72]: z
Out[72]: array(4)
In [73]: z[...]=0
In [74]: arr
Out[74]: array([0, 0, 2, 3])

Run Code Online (Sandbox Code Playgroud)

在 Python 代码中，我们通常不使用这样的对象。当我们使用c-apior时cython是否可以直接访问数据缓冲区。 nditer是一种迭代机制，适用于像这样的 0d 对象（在 Python 或 c-api 中）。对于低级别访问特别cython typed memoryviews有用。

http://cython.readthedocs.io/en/latest/src/userguide/memoryviews.html

https://docs.scipy.org/doc/numpy/reference/arrays.nditer.html

https://docs.scipy.org/doc/numpy/reference/c-api.iterator.html#c.NpyIter

按元素 ==

作为对评论的回应，比较 NumPy 对象引用

np.array([1]) == np.array([2]) 将返回 array([False], dtype=bool)

==为数组定义为元素操作。它比较各个元素的值并返回匹配的布尔数组。

如果需要在标量上下文（例如）中使用此类比较，if则需要将其简化为单个值，如np.all或np.any。

该is测试比较对象 ID（不仅仅是 numpy 对象）。它在实际编码中的价值有限。我最常在诸如之类的表达式中使用它is None，其中None是具有唯一 id 的对象，并且它不能很好地进行相等性测试。

归档时间：	8 年，8 月前
查看次数：	671 次
最近记录：	6 年，9 月前