在numpy数组中查找连续的零

Sha*_*han 8 python arrays numpy

我有以下数组

  a = [1, 2, 3, 0, 0, 0, 0, 0, 0, 4, 5, 6, 0, 0, 0, 0, 9, 8, 7,0,10,11]
Run Code Online (Sandbox Code Playgroud)

我希望找到连续值为零的数组的开始和结束索引,对于输出上方的数组,如下所示

  [3,8],[12,15],[19]
Run Code Online (Sandbox Code Playgroud)

我想尽可能高效地做到这一点.

War*_*ser 24

这是一个相当紧凑的矢量化实现.我已经改变了一些要求,所以返回值有点"numpythonic":它创建一个形状为(m,2)的数组,其中m是零的"运行"数.第一列是每次运行中第一个0的索引,第二列是运行后第一个非零元素的索引.(例如,这种索引模式与切片的工作方式以及range函数的工作方式相匹配.)

import numpy as np

def zero_runs(a):
    # Create an array that is 1 where a is 0, and pad each end with an extra 0.
    iszero = np.concatenate(([0], np.equal(a, 0).view(np.int8), [0]))
    absdiff = np.abs(np.diff(iszero))
    # Runs start and end where absdiff is 1.
    ranges = np.where(absdiff == 1)[0].reshape(-1, 2)
    return ranges
Run Code Online (Sandbox Code Playgroud)

例如:

In [236]: a = [1, 2, 3, 0, 0, 0, 0, 0, 0, 4, 5, 6, 0, 0, 0, 0, 9, 8, 7, 0, 10, 11]

In [237]: runs = zero_runs(a)

In [238]: runs
Out[238]: 
array([[ 3,  9],
       [12, 16],
       [19, 20]])
Run Code Online (Sandbox Code Playgroud)

使用此格式,在每次运行中获取零的数量很简单:

In [239]: runs[:,1] - runs[:,0]
Out[239]: array([6, 4, 1])
Run Code Online (Sandbox Code Playgroud)

检查边缘情况总是一个好主意:

In [240]: zero_runs([0,1,2])
Out[240]: array([[0, 1]])

In [241]: zero_runs([1,2,0])
Out[241]: array([[2, 3]])

In [242]: zero_runs([1,2,3])
Out[242]: array([], shape=(0, 2), dtype=int64)

In [243]: zero_runs([0,0,0])
Out[243]: array([[0, 3]])
Run Code Online (Sandbox Code Playgroud)

  • Oneliner: `np.ediff1d(np.r_[0, a == 0, 0]).nonzero()[0].reshape(-1, 2)` (3认同)