将numpy转换recarray为普通数组的最佳方法是什么?
我可以做一个.tolist()然后再做array()一次,但这似乎有点低效..
例:
import numpy as np
a = np.recarray((2,), dtype=[('x', int), ('y', float), ('z', int)])
>>> a
rec.array([(30408891, 9.2944097561804909e-296, 30261980),
(44512448, 4.5273310988985789e-300, 29979040)],
dtype=[('x', '<i4'), ('y', '<f8'), ('z', '<i4')])
>>> np.array(a.tolist())
array([[ 3.04088910e+007, 9.29440976e-296, 3.02619800e+007],
[ 4.45124480e+007, 4.52733110e-300, 2.99790400e+007]])
Run Code Online (Sandbox Code Playgroud)
unu*_*tbu 13
通过"正常数组",我认为它是指同类dtype的NumPy数组.给出一个重新组合,例如:
>>> a = np.array([(0, 1, 2),
(3, 4, 5)],[('x', int), ('y', float), ('z', int)]).view(np.recarray)
rec.array([(0, 1.0, 2), (3, 4.0, 5)],
dtype=[('x', '<i4'), ('y', '<f8'), ('z', '<i4')])
Run Code Online (Sandbox Code Playgroud)
我们必须首先使每列具有相同的dtype.然后我们可以通过相同的dtype查看数据将其转换为"正常数组":
>>> a.astype([('x', '<f8'), ('y', '<f8'), ('z', '<f8')]).view('<f8')
array([ 0., 1., 2., 3., 4., 5.])
Run Code Online (Sandbox Code Playgroud)
astype返回一个新的numpy数组.因此,上述内容需要额外的内存,其数量与内容的大小成正比a.每行a需要4 + 8 + 4 = 16字节,同时a.astype(...)需要8*3 = 24字节.调用视图不需要新的内存,因为view只需更改底层数据的解释方式.
a.tolist()返回一个新的Python列表.每个Python编号都是一个对象,它需要比numpy数组中的等效表示更多的字节.因此a.tolist()需要更多的内存a.astype(...).
通话a.astype(...).view(...)速度也快于np.array(a.tolist()):
In [8]: a = np.array(zip(*[iter(xrange(300))]*3),[('x', int), ('y', float), ('z', int)]).view(np.recarray)
In [9]: %timeit a.astype([('x', '<f8'), ('y', '<f8'), ('z', '<f8')]).view('<f8')
10000 loops, best of 3: 165 us per loop
In [10]: %timeit np.array(a.tolist())
1000 loops, best of 3: 683 us per loop
Run Code Online (Sandbox Code Playgroud)