如何从生成器构建numpy数组?

saf*_*fsd 146 python numpy generator

如何从生成器对象中构建numpy数组?

让我来说明一下这个问题:

>>> import numpy
>>> def gimme():
...   for x in xrange(10):
...     yield x
...
>>> gimme()
<generator object at 0x28a1758>
>>> list(gimme())
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
>>> numpy.array(xrange(10))
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> numpy.array(gimme())
array(<generator object at 0x28a1758>, dtype=object)
>>> numpy.array(list(gimme()))
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
Run Code Online (Sandbox Code Playgroud)

在这个例子中,gimme()是我想要变成数组的输出的生成器.但是,数组构造函数不会迭代生成器,它只是存储生成器本身.我想要的行为来自numpy.array(list(gimme())),但我不想支付同时在内存中使用中间列表和最终数组的内存开销.有更节省空间的方式吗?

dhi*_*ill 191

这个stackoverflow结果背后的一个谷歌,我发现有一个numpy.fromiter(data, dtype, count).默认值count=-1采用iterable中的所有元素.它需要dtype明确设置.就我而言,这有效:

numpy.fromiter(something.generate(from_this_input), float)

  • 一个线程解释了为什么`fromiter`只适用于1D数组:http://mail.scipy.org/pipermail/numpy-discussion/2007-August/028898.html. (11认同)
  • 如果您事先知道迭代的长度,请指定`count`以提高性能.这样它就可以在填充值之前分配内存,而不是按需调整大小(参见`numpy.fromiter`的文档) (4认同)
  • @Matthias009 `numpy.fromiter(gimme(), float, count=-1)` 对我有用。 (2认同)
  • 首先,无需指定`count = -1',因为它是默认值。 (2认同)

shs*_*rfy 119

与python列表不同,Numpy数组需要在创建时显式设置它们的长度.这是必要的,以便每个项目的空间可以在内存中连续分配.连续分配是numpy数组的关键特性:这与本机代码实现结合使用,对它们的操作比常规列表执行得快得多.

记住这一点,技术上不可能采用生成器对象并将其转换为数组,除非您:

  1. 可以预测运行时会产生多少元素:

    my_array = numpy.empty(predict_length())
    for i, el in enumerate(gimme()): my_array[i] = el
    
    Run Code Online (Sandbox Code Playgroud)
  2. 愿意将其元素存储在中间列表中:

    my_array = numpy.array(list(gimme()))
    
    Run Code Online (Sandbox Code Playgroud)
  3. 可以生成两个相同的生成器,通过第一个生成器查找总长度,初始化数组,然后再次运行生成器以查找每个元素:

    length = sum(1 for el in gimme())
    my_array = numpy.empty(length)
    for i, el in enumerate(gimme()): my_array[i] = el
    
    Run Code Online (Sandbox Code Playgroud)

1可能就是你要找的东西.2是空间效率低,3是时间效率低(你必须经过两次发电机).

  • 内置的`array.array`是一个连续的非链表,你可以简单地`array.array('f',generator)`.说说不可能是误导.这只是动态分配. (10认同)
  • numpy假设它的数组大小不会改变.它严重依赖于同一块内存的不同视图,因此允许扩展和重新分配数组将需要额外的间接层来启用视图. (3认同)
  • 使用empty会快一点.由于您将以任何方式初始化值,因此无需执行此操作两次. (2认同)

mde*_*eff 13

虽然您可以使用生成器创建一维数组,但您可以使用以下命令从生成器numpy.fromiter()创建ND数组numpy.stack:

>>> mygen = (np.ones((5, 3)) for _ in range(10))
>>> x = numpy.stack(mygen)
>>> x.shape
(10, 5, 3)
Run Code Online (Sandbox Code Playgroud)

它也适用于一维数组:

>>> numpy.stack(2*i for i in range(10))
array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])
Run Code Online (Sandbox Code Playgroud)

请注意,numpy.stack内部使用生成器并使用创建中间列表arrays = [asanyarray(arr) for arr in arrays].可以在此处找到实施方案.

  • 这看起来很棒,并且对我有用。但是在Numpy 1.16.1中,我得到以下警告:`FutureWarning:必须以“序列”类型(例如列表或元组)传递要堆栈的数组。从NumPy 1.16开始,不再支持诸如发电机之类的非序列可迭代对象,将来会引发错误。 (8认同)

小智 6

有点切向,但如果你的生成器是一个列表理解,你可以numpy.where用来更有效地得到你的结果(我看到这篇文章后在我自己的代码中发现了这个)