识别 Pandas DataFrame 中每一行的第一个和所有非零值

Jua*_*ssa 6 python pandas

我有一个类似于以下内容的 Pandas DataFrame

data=pd.DataFrame([['Juan',0,0,400,450,500],['Luis',100,100,100,100,100],[ 'Maria',0,20,50,300,500],[ 'Laura',0,0,0,100,900],['Lina',0,0,0,0,10]])

data.columns=['Name','Date1','Date2','Date3','Date4','Date5']
    
Name  Date1  Date2  Date3  Date4  Date5
0   Juan      0      0    400    450    500
1   Luis    100    100    100    100    100
2  Maria      0     20     50    300    500
3  Laura      0      0      0    100    900
4   Lina      0      0      0      0     10
Run Code Online (Sandbox Code Playgroud)

我想生成两个单独的数据帧。第一个应该在前一个DataFrame的非零值的所有位置都包含一个1,即

    Name  Date1  Date2  Date3  Date4  Date5
0   Juan      0      0      1      1      1
1   Luis      1      1      1      1      1
2  Maria      0      1      1      1      1
3  Laura      0      0      0      1      1
4   Lina      0      0      0      0      1
Run Code Online (Sandbox Code Playgroud)

第二个应该在每行的第一个非零值中有一个 1。

    Name  Date1  Date2  Date3  Date4  Date5
0   Juan      0      0      1      0      0
1   Luis      1      0      0      0      0
2  Maria      0      1      0      0      0
3  Laura      0      0      0      1      0
4   Lina      0      0      0      0      1
Run Code Online (Sandbox Code Playgroud)

我检查了其他帖子,发现我可以通过以下方式获得第一个

out=data.copy()
out.iloc[:,1:6]=data.select_dtypes(include=['number']).where(data.select_dtypes(include=['number'])==0,1)
Run Code Online (Sandbox Code Playgroud)

有没有更简单/更简单的方法来实现我想要的第一个结果?和

有谁知道如何实现第二个结果?(此外,还有一个双循环,逐个比较数字,这将是我宁愿避免的蛮力方法)

jez*_*ael 5

首先,您只能选择数字列并用in替换非0值,然后在第二个添加累积和 per并比较第一个值,布尔掩码转换为整数:1DataFrame.maskaxis=11DataFrame.eqDataFrame.astype

df1, df2 = data.copy(), data.copy()
cols = df1.select_dtypes(include=np.number).columns
df1[cols] = df1[cols].mask(data[cols].ne(0), 1)

df2[cols] = df1[cols].cumsum(axis=1).eq(1).astype(int)
print(df1)
    Name  Date1  Date2  Date3  Date4  Date5
0   Juan      0      0      1      1      1
1   Luis      1      1      1      1      1
2  Maria      0      1      1      1      1
3  Laura      0      0      0      1      1
4   Lina      0      0      0      0      1

print(df2)
    Name  Date1  Date2  Date3  Date4  Date5
0   Juan      0      0      1      0      0
1   Luis      1      0      0      0      0
2  Maria      0      1      0      0      0
3  Laura      0      0      0      1      0
4   Lina      0      0      0      0      1
Run Code Online (Sandbox Code Playgroud)