如何累积"全部"

piR*_*red 10 python numpy pandas

设置
考虑numpy数组a

>>> np.random.seed([3,1415])
>>> a = np.random.choice([True, False], (4, 8))

>>> a
array([[ True, False,  True, False,  True,  True, False,  True],
       [False, False, False, False,  True, False, False,  True],
       [False,  True,  True,  True,  True,  True,  True,  True],
       [ True,  True,  True, False,  True, False, False, False]], dtype=bool)
Run Code Online (Sandbox Code Playgroud)

问题
对于每一列,我想确定所有列的累积等价物.

结果应如下所示:

array([[ True, False,  True, False,  True,  True, False,  True],
       [False, False, False, False,  True, False, False,  True],
       [False, False, False, False,  True, False, False,  True],
       [False, False, False, False,  True, False, False, False]], dtype=bool)
Run Code Online (Sandbox Code Playgroud)

拿第一列

a[: 0]

# Original First Column
array([ True, False, False,  True], dtype=bool)
# So far so good
#        \     False from here on
#         |    /---------------\
array([ True, False, False, False], dtype=bool)
# Cumulative all
Run Code Online (Sandbox Code Playgroud)

所以基本上,累积全部是True我们所拥有的,True并且False从那时开始转向False


我试过的
可以得到结果

a.cumprod(0).astype(bool)
Run Code Online (Sandbox Code Playgroud)

但是,当我知道一切都将从我看到False的第一次开始时,我不禁想知道是否有必要执行每一次乘法False.

考虑更大的1-D阵列

b = np.array(list('111111111110010101010101010101010101010011001010101010101')).astype(int).astype(bool)
Run Code Online (Sandbox Code Playgroud)

我认为这两个产生了相同的答案

bool(b.prod())
Run Code Online (Sandbox Code Playgroud)

b.all()
Run Code Online (Sandbox Code Playgroud)

但是b.all()可以短路而b.prod()不是.如果我给他们计时:

%timeit bool(b.prod())
%timeit b.all()

100000 loops, best of 3: 2.05 µs per loop
1000000 loops, best of 3: 1.45 µs per loop
Run Code Online (Sandbox Code Playgroud)

b.all()更快.这意味着我必须有一种方法来累积所有比我更快的累积a.cumprod(0).astype(bool)

unu*_*tbu 13

所有ufuncs有5种方法:reduce,accumulate,reduceat,outer,和at.在这种情况下,使用,accumulate因为它返回ufunc的累积应用程序的结果:

In [41]: np.logical_and.accumulate(a, axis=0)
Out[50]: 
array([[ True, False,  True, False,  True,  True, False,  True],
       [False, False, False, False,  True, False, False,  True],
       [False, False, False, False,  True, False, False,  True],
       [False, False, False, False,  True, False, False, False]], dtype=bool)
Run Code Online (Sandbox Code Playgroud)
In [60]: np.random.seed([3,1415])

In [61]: a = np.random.choice([True, False], (400, 80))

In [57]: %timeit np.logical_and.accumulate(a, axis=0)
10000 loops, best of 3: 85.6 µs per loop

In [59]: %timeit a.cumprod(0).astype(bool)
10000 loops, best of 3: 138 µs per loop
Run Code Online (Sandbox Code Playgroud)

  • `a.cumprod(0,dtype = bool)`是一个更公平的比较,它基本上是相同的速度.使用`astype`会产生副本 (2认同)