在Python 2.7.3中为numpy数组指定字段名称

Question

在Python 2.7.3中为numpy数组指定字段名称

xtl*_*tlc 5 python arrays numpy user-defined-types python-2.7

我很担心这一点,因为我显然错过了重点,解决方案太简单了:(

我有一个带有x列的np.array,我想指定一个字段名称.所以这是我的代码:

data = np.array([[1,2,3], [4.0,5.0,6.0], [11,12,12.3]])
a = np.array(data, dtype= {'names': ['1st', '2nd', '3rd'], 'formats':['f8','f8', 'f8']})
print a['1st']

Run Code Online (Sandbox Code Playgroud)

为什么会这样

[[  1.    2.    3. ]
 [  4.    5.    6. ]
 [ 11.   12.   12.3]]

Run Code Online (Sandbox Code Playgroud)

而不是[1, 2, 3]？

Answer 1

hpa*_*ulj 3

In [1]: data = np.array([[1,2,3], [4.0,5.0,6.0], [11,12,12.3]])
In [2]: dt = np.dtype({'names': ['1st', '2nd', '3rd'], 'formats':['f8','f8', 'f8']})

Run Code Online (Sandbox Code Playgroud)

你的尝试：

In [3]: np.array(data,dt)
Out[3]: 
array([[(1.0, 1.0, 1.0), (2.0, 2.0, 2.0), (3.0, 3.0, 3.0)],
       [(4.0, 4.0, 4.0), (5.0, 5.0, 5.0), (6.0, 6.0, 6.0)],
       [(11.0, 11.0, 11.0), (12.0, 12.0, 12.0), (12.3, 12.3, 12.3)]], 
      dtype=[('1st', '<f8'), ('2nd', '<f8'), ('3rd', '<f8')])

Run Code Online (Sandbox Code Playgroud)

生成一个 (3,3) 数组，为每个字段分配相同的值。data.astype(dt)做同样的事情。

但view会生成一个 (3,1) 数组，其中每个字段都包含一列的数据。

In [4]: data.view(dt)
Out[4]: 
array([[(1.0, 2.0, 3.0)],
       [(4.0, 5.0, 6.0)],
       [(11.0, 12.0, 12.3)]], 
      dtype=[('1st', '<f8'), ('2nd', '<f8'), ('3rd', '<f8')])

Run Code Online (Sandbox Code Playgroud)

我应该警告一下view只有当所有字段具有与原始字段相同的数据类型时才有效。它使用相同的数据缓冲区，只是对值的解释不同。

您可以将结果从 (3,1) 重塑为 (3,)。

但既然你想A['1st']成为[1,2,3]——一排data——我们就必须做一些其他的操作。

In [16]: data.T.copy().view(dt)
Out[16]: 
array([[(1.0, 4.0, 11.0)],
       [(2.0, 5.0, 12.0)],
       [(3.0, 6.0, 12.3)]], 
      dtype=[('1st', '<f8'), ('2nd', '<f8'), ('3rd', '<f8')])
In [17]: _['1st']
Out[17]: 
array([[ 1.],
       [ 2.],
       [ 3.]])

Run Code Online (Sandbox Code Playgroud)

我转置，然后制作副本（重新排列底层数据缓冲区）。现在一个视图将[1,2,3]一个字段中。

请注意，结构化数组的显示使用()而不是[]“行”。这是关于它如何接受输入的线索。

我可以将你的变成data一个元组列表：

In [19]: [tuple(i) for i in data.T]
Out[19]: [(1.0, 4.0, 11.0), (2.0, 5.0, 12.0), (3.0, 6.0, 12.300000000000001)]

In [20]: np.array([tuple(i) for i in data.T],dt)
Out[20]: 
array([(1.0, 4.0, 11.0), (2.0, 5.0, 12.0), (3.0, 6.0, 12.3)], 
      dtype=[('1st', '<f8'), ('2nd', '<f8'), ('3rd', '<f8')])
In [21]: _['1st']
Out[21]: array([ 1.,  2.,  3.])

Run Code Online (Sandbox Code Playgroud)

这是一个包含 3 个字段的 (3,) 数组。

元组列表是向提供数据的正常方式np.array(...,dt)。 请参阅我的评论中的文档链接。

您还可以创建一个空数组，然后逐行或逐字段填充它

In [26]: A=np.zeros((3,),dt)
In [27]: for i in range(3):
   ....:     A[i]=data[:,i].copy()

Run Code Online (Sandbox Code Playgroud)

没有copy我得到一个ValueError: ndarray is not C-contiguous

按字段填写：

In [29]: for i in range(3):
   ....:     A[dt.names[i]]=data[i,:]

Run Code Online (Sandbox Code Playgroud)

通常，结构化数组具有许多行和一些字段。所以按字段填充还是比较快的。这就是recarray函数处理大多数复制任务的方式。

fromiter还可以使用：

In [31]: np.fromiter(data, dtype=dt)
Out[31]: 
array([(1.0, 2.0, 3.0), (4.0, 5.0, 6.0), (11.0, 12.0, 12.3)], 
     dtype=[('1st', '<f8'), ('2nd', '<f8'), ('3rd', '<f8')])

Run Code Online (Sandbox Code Playgroud)

但是在没有副本的情况下使用时出现的错误data.T强烈表明正在进行逐行迭代（我的 In[27]）

In [32]: np.fromiter(data.T, dtype=dt)
  ValueError: ndarray is not C-contiguous

Run Code Online (Sandbox Code Playgroud)

zip(*data)是对输入数组重新排序的另一种方法（请参阅@unutbu's评论链接中的答案）。

np.fromiter(zip(*data),dtype=dt)

Run Code Online (Sandbox Code Playgroud)

正如评论中指出的那样，fromarrays有效：

np.rec.fromarrays(data,dt)

Run Code Online (Sandbox Code Playgroud)

rec这是使用复制方法的函数示例by field：

arrayList = [sb.asarray(x) for x in arrayList]
....
_array = recarray(shape, descr)
# populate the record array (makes a copy)
for i in range(len(arrayList)):
    _array[_names[i]] = arrayList[i]

Run Code Online (Sandbox Code Playgroud)

在我们的例子中是：

In [8]: data1 = [np.asarray(i) for i in data]
In [9]: data1
Out[9]: [array([ 1.,  2.,  3.]), array([ 4.,  5.,  6.]), array([ 11. ,  12. ,  12.3])]
In [10]: for i in range(3):
    A[dt.names[i]] = data1[i]

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，5 月前
查看次数：	2464 次
最近记录：	10 年，5 月前