在 DataFrame 中按行计算非零值的非重叠运行

Question

在 DataFrame 中按行计算非零值的非重叠运行

ren*_*kre 5 python numpy dataframe pandas

假设我有以下 Pandas DataFrame：

id | a1 | a2 | a3 | a4 
1  | 3  | 0  | 10 | 25   
2  | 0  | 0  | 31 | 15  
3  | 20 | 11 | 6  | 5  
4  | 0  | 3  | 1  | 7

Run Code Online (Sandbox Code Playgroud)

我想要的是计算n每行中连续非零值的非重叠运行次数，对于n. 所需的输出是：

id | a1 | a2 | a3 | a4 | 2s | 3s | 4s
1  | 3  | 0  | 10 | 25 | 1  | 0  | 0
2  | 0  | 0  | 31 | 15 | 1  | 0  | 0
3  | 20 | 11 | 6  | 5  | 2  | 1  | 1
4  | 0  | 3  | 1  | 7  | 1  | 1  | 0

Run Code Online (Sandbox Code Playgroud)

其中，例如，2s列中的每个值显示该行中长度为 2 的非重叠游程数，列中的每个值3s显示长度为 3 的相应游程数，依此类推。

我想知道是否有任何 Pandas 或 Numpy 方法可以解决这个问题？

Answer 1

Div*_*kar 5

这是2D convolution解决一行中任意数量元素的一种方法-

from scipy.signal import convolve2d as conv2

n = 6
v = np.vstack([(conv2(df.values!=0,[[1]*I])==I).sum(1) for I in range(2,n+1)]).T
df_v = pd.DataFrame(v, columns = [[str(i)+'s' for i in range(2,n+1)]])
df_out = pd.concat([df, df_v],1)

Run Code Online (Sandbox Code Playgroud)

基本理念

基本思想是我们可以使用滑动窗口来总结每一行中非零的存在。假设我们正在查看有多少三个非零连续出现。因此，我们将使用大小的滑动窗口3并获得滑动求和。滑动窗口的所有三个元素都出现为非零的所有那些地方将产生的总和3。因此，我们寻找匹配的总和3并计算它们。就是这样！我们遍历所有的窗口大小，以捕捉所有的2s，3s等等。

这是一个用于计算3s数组的示例运行-

In [326]: a
Out[326]: 
array([[0, 2, 1, 2, 1, 2],
       [2, 2, 2, 0, 0, 0],
       [2, 2, 1, 1, 1, 1],
       [1, 2, 1, 2, 0, 1]])

In [327]: a!=0
Out[327]: 
array([[False,  True,  True,  True,  True,  True],
       [ True,  True,  True, False, False, False],
       [ True,  True,  True,  True,  True,  True],
       [ True,  True,  True,  True, False,  True]], dtype=bool)

In [329]: conv2(a!=0,[[1]*3])
Out[329]: 
array([[0, 1, 2, 3, 3, 3, 2, 1],
       [1, 2, 3, 2, 1, 0, 0, 0],
       [1, 2, 3, 3, 3, 3, 2, 1],
       [1, 2, 3, 3, 2, 2, 1, 1]])

In [330]: conv2(a!=0,[[1]*3])==3
Out[330]: 
array([[False, False, False,  True,  True,  True, False, False],
       [False, False,  True, False, False, False, False, False],
       [False, False,  True,  True,  True,  True, False, False],
       [False, False,  True,  True, False, False, False, False]], dtype=bool)

In [331]: (conv2(a!=0,[[1]*3])==3).sum(1)
Out[331]: array([3, 1, 4, 2])

Run Code Online (Sandbox Code Playgroud)

样品运行 -

In [158]: df_out
Out[158]: 
   a1  a2  a3  a4  a5  a6  2s  3s  4s  5s  6s
0   1   2   1   0   0   2   2   1   0   0   0
1   1   1   2   1   0   1   3   2   1   0   0
2   1   1   0   0   1   1   2   0   0   0   0
3   2   2   1   0   2   2   3   1   0   0   0

Run Code Online (Sandbox Code Playgroud)

请注意，如果第一列是'id'，那么我们需要跳过它。因此，我们需要在建议的解决方案代码中使用df.values[:,1:]代替df.values。

归档时间：	8 年，10 月前
查看次数：	585 次
最近记录：	8 年，10 月前