为什么将长2D列表转换为numpy数组这么慢?

her*_*h10 18 python performance numpy

我有一长串的xy坐标,并希望将其转换为numpy数组.

>>> import numpy as np
>>> xy = np.random.rand(1000000, 2).tolist()
Run Code Online (Sandbox Code Playgroud)

显而易见的方法是:

>>> a = np.array(xy) # Very slow...
Run Code Online (Sandbox Code Playgroud)

但是,上面的代码非常慢.有趣的是,首先转换长列表,将其转换为numpy数组,然后转置回来会更快(我的笔记本电脑上的20倍).

>>> def longlist2array(longlist):
...     wide = [[row[c] for row in longlist] for c in range(len(longlist[0]))]
...     return np.array(wide).T
>>> a = longlist2array(xy) # 20x faster!
Run Code Online (Sandbox Code Playgroud)

这是一个numpy的错误吗?

编辑:

这是一个动态生成的点(带有xy坐标)的列表,因此不是预先分配数组并在必要时放大它,或者为x和y维护两个1D列表,我认为当前表示是最自然的.

为什么循环遍历第二个索引比第一个索引更快,因为我们在两个方向上遍历python列表?

编辑2:

根据@ tiago的回答和这个问题,我发现以下代码的速度是原始版本的两倍:

>>> from itertools import chain
>>> def longlist2array(longlist):
...     flat = np.fromiter(chain.from_iterable(longlist), np.array(longlist[0][0]).dtype, -1) # Without intermediate list:)
...     return flat.reshape((len(longlist), -1))
Run Code Online (Sandbox Code Playgroud)

tia*_*ago 6

这是因为列表中变化最快的索引是最后一个,因此np.array()必须多次遍历数组,因为第一个索引要大得多。如果您的列表被调换,np.array()将比您的更快longlist2array

In [65]: import numpy as np

In [66]: xy = np.random.rand(10000, 2).tolist()

In [67]: %timeit longlist2array(xy)
100 loops, best of 3: 3.38 ms per loop

In [68]: %timeit np.array(xy)
10 loops, best of 3: 55.8 ms per loop

In [69]: xy = np.random.rand(2, 10000).tolist()

In [70]: %timeit longlist2array(xy)
10 loops, best of 3: 59.8 ms per loop

In [71]: %timeit np.array(xy)
1000 loops, best of 3: 1.96 ms per loop
Run Code Online (Sandbox Code Playgroud)

您的问题没有神奇的解决方案。这就是 Python 在内存中存储列表的方式。你真的需要一个具有这种形状的列表吗?你不能逆转吗?(考虑到您要转换为 numpy,您真的需要一个列表吗?)

如果你必须转换一个列表,这个函数比你的快 10% longlist2array

from itertools import chain

def convertlist(longlist)
    tmp = list(chain.from_iterable(longlist))
    return np.array(tmp).reshape((len(longlist), len(longlist[0])))
Run Code Online (Sandbox Code Playgroud)


Ian*_*anH 5

在Cython中实现它而不需要额外的检查来确定维度等,这几乎消除了你所看到的时差.这是.pyx我用来验证的文件.

from numpy cimport ndarray as ar
import numpy as np
cimport cython

@cython.boundscheck(False)
@cython.wraparound(False)
def toarr(xy):
    cdef int i, j, h=len(xy), w=len(xy[0])
    cdef ar[double,ndim=2] new = np.empty((h,w))
    for i in xrange(h):
        for j in xrange(w):
            new[i,j] = xy[i][j]
    return new
Run Code Online (Sandbox Code Playgroud)

我假设花费额外的时间来检查每个子列表的长度和内容,以确定所需数组的数据类型,维度和大小.当只有两个子列表时,它只需要检查两个长度来确定数组中的列数,而不是检查它们中的1000000个.