识别 Pandas DataFrame 中每一行的第一个和所有非零值

Question

识别 Pandas DataFrame 中每一行的第一个和所有非零值

我有一个类似于以下内容的 Pandas DataFrame

data=pd.DataFrame([['Juan',0,0,400,450,500],['Luis',100,100,100,100,100],[ 'Maria',0,20,50,300,500],[ 'Laura',0,0,0,100,900],['Lina',0,0,0,0,10]])

data.columns=['Name','Date1','Date2','Date3','Date4','Date5']
    
Name  Date1  Date2  Date3  Date4  Date5
0   Juan      0      0    400    450    500
1   Luis    100    100    100    100    100
2  Maria      0     20     50    300    500
3  Laura      0      0      0    100    900
4   Lina      0      0      0      0     10

Run Code Online (Sandbox Code Playgroud)

我想生成两个单独的数据帧。第一个应该在前一个DataFrame的非零值的所有位置都包含一个1，即

    Name  Date1  Date2  Date3  Date4  Date5
0   Juan      0      0      1      1      1
1   Luis      1      1      1      1      1
2  Maria      0      1      1      1      1
3  Laura      0      0      0      1      1
4   Lina      0      0      0      0      1

Run Code Online (Sandbox Code Playgroud)

第二个应该在每行的第一个非零值中有一个 1。

    Name  Date1  Date2  Date3  Date4  Date5
0   Juan      0      0      1      0      0
1   Luis      1      0      0      0      0
2  Maria      0      1      0      0      0
3  Laura      0      0      0      1      0
4   Lina      0      0      0      0      1

Run Code Online (Sandbox Code Playgroud)

我检查了其他帖子，发现我可以通过以下方式获得第一个

out=data.copy()
out.iloc[:,1:6]=data.select_dtypes(include=['number']).where(data.select_dtypes(include=['number'])==0,1)

Run Code Online (Sandbox Code Playgroud)

有没有更简单/更简单的方法来实现我想要的第一个结果？和

有谁知道如何实现第二个结果？（此外，还有一个双循环，逐个比较数字，这将是我宁愿避免的蛮力方法）

Answer 1

jez*_*ael 5

首先，您只能选择数字列并用in替换非0值，然后在第二个添加累积和 per并比较第一个值，布尔掩码转换为整数：1DataFrame.maskaxis=11DataFrame.eqDataFrame.astype

df1, df2 = data.copy(), data.copy()
cols = df1.select_dtypes(include=np.number).columns
df1[cols] = df1[cols].mask(data[cols].ne(0), 1)

df2[cols] = df1[cols].cumsum(axis=1).eq(1).astype(int)
print(df1)
    Name  Date1  Date2  Date3  Date4  Date5
0   Juan      0      0      1      1      1
1   Luis      1      1      1      1      1
2  Maria      0      1      1      1      1
3  Laura      0      0      0      1      1
4   Lina      0      0      0      0      1

print(df2)
    Name  Date1  Date2  Date3  Date4  Date5
0   Juan      0      0      1      0      0
1   Luis      1      0      0      0      0
2  Maria      0      1      0      0      0
3  Laura      0      0      0      1      0
4   Lina      0      0      0      0      1

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，3 月前
查看次数：	68 次
最近记录：	5 年，3 月前