高效的 numpy 数组创建

Nei*_*l G 4 python numpy

鉴于x,我想生成x, log(x)一个 numpy 数组,其中x具有 shape s,结果具有 shape (*s, 2)。什么是最简洁的方法来做到这一点? x可能只是一个浮点数,在这种情况下,我想要一个带有 shape 的结果(2,)

一个丑陋的方法是:

import numpy as np

x = np.asarray(x)
result = np.empty((*x.shape, 2))
result[..., 0] = x
result[..., 1] = np.log(x)
Run Code Online (Sandbox Code Playgroud)

unu*_*tbu 5

将美学与性能分开很重要。有时丑陋的代码很快。事实上,这里就是这种情况。尽管创建一个空数组然后为切片赋值可能看起来不美观,但速度很快。

import numpy as np
import timeit 
import itertools as IT
import pandas as pd

def using_empty(x):
    x = np.asarray(x)
    result = np.empty(x.shape + (2,))
    result[..., 0] = x
    result[..., 1] = np.log(x)
    return result

def using_concat(x):
    x = np.asarray(x)
    return np.concatenate([x, np.log(x)], axis=-1).reshape(x.shape+(2,), order='F')

def using_stack(x):
    x = np.asarray(x)
    return np.stack([x, np.log(x)], axis=x.ndim)

def using_ufunc(x):
    return np.array([x, np.log(x)])
using_ufunc = np.vectorize(using_ufunc, otypes=[np.ndarray])

tests = [np.arange(600),
         np.arange(600).reshape(20,30),
         np.arange(960).reshape(8,15,8)]

# check that all implementations return the same result
for x in tests:
    assert np.allclose(using_empty(x), using_concat(x))
    assert np.allclose(using_empty(x), using_stack(x))


timing = []
funcs = ['using_empty', 'using_concat', 'using_stack', 'using_ufunc']
for test, func in IT.product(tests, funcs):
    timing.append(timeit.timeit(
        '{}(test)'.format(func), 
        setup='from __main__ import test, {}'.format(func), number=1000))

timing = pd.DataFrame(np.array(timing).reshape(-1, len(funcs)), columns=funcs)
print(timing)
Run Code Online (Sandbox Code Playgroud)

产生,以下 timeit 结果在我的机器上:

   using_empty  using_concat  using_stack  using_ufunc
0     0.024754      0.025182     0.030244     2.414580
1     0.025766      0.027692     0.031970     2.408344
2     0.037502      0.039644     0.044032     3.907487
Run Code Online (Sandbox Code Playgroud)

所以using_empty是最快的(选项测试的应用tests)。

请注意,np.stack这正是您想要的,所以

np.stack([x, np.log(x)], axis=x.ndim)
Run Code Online (Sandbox Code Playgroud)

看起来相当漂亮,但它也是测试的三个选项中最慢的。


请注意,除了慢得多,还using_ufunc返回一个对象 dtype 数组:

In [236]: x = np.arange(6)

In [237]: using_ufunc(x)
Out[237]: 
array([array([  0., -inf]), array([ 1.,  0.]),
       array([ 2.        ,  0.69314718]),
       array([ 3.        ,  1.09861229]),
       array([ 4.        ,  1.38629436]), array([ 5.        ,  1.60943791])], dtype=object)
Run Code Online (Sandbox Code Playgroud)

这与所需的结果不同:

In [240]: using_empty(x)
Out[240]: 
array([[ 0.        ,        -inf],
       [ 1.        ,  0.        ],
       [ 2.        ,  0.69314718],
       [ 3.        ,  1.09861229],
       [ 4.        ,  1.38629436],
       [ 5.        ,  1.60943791]])

In [238]: using_ufunc(x).shape
Out[238]: (6,)

In [239]: using_empty(x).shape
Out[239]: (6, 2)
Run Code Online (Sandbox Code Playgroud)