python pandas中group by后将一列的多个值合并到一列中

Question

python pandas中group by后将一列的多个值合并到一列中

H_A*_*H_A 5 python row dataframe pandas pandas-groupby

我希望执行与此线程中类似的任务：将多个列值合并到 python pandas 中的一列中

但不同之处在于，我想创建一个新列，在按另一列分组后合并列中的所有非空值。这是一个玩具示例：

df= pd.DataFrame({'ID1' : [1,1,2,2,3,3,3],'ID2' : ['a','a','b','b','c','c','c'],
             'Status' : pd.Series([np.nan,'1', np.nan,'1','2',np.nan,'1'], 
                                  dtype="category")})

 df
Out[74]: 
     ID1 ID2 Status
 0    1   a    NaN
 1    1   a      1
 2    2   b    NaN
 3    2   b      1
 4    3   c      2
 5    3   c    NaN
 6    3   c      1

Run Code Online (Sandbox Code Playgroud)

然后我想groupby ID1并且ID2：

gr = df.groupby(['ID1','ID2'])

Run Code Online (Sandbox Code Playgroud)

然后，我希望我的结果如下所示：

Out:
   NewCol
0   1
1   1
2   2,1

Run Code Online (Sandbox Code Playgroud)

所以它是一个新的DataFrame，包含按和分组的列non-null的值。StatusID1ID2

提前致谢。

Answer 1

jez*_*ael 4

与 lambda 函数一起使用GroupBy.agg是最通用的解决方案：

df1 = df.groupby(['ID1','ID2'])['Status'].agg(lambda x: ','.join(x.dropna())).reset_index()
print (df1)
   ID1 ID2 Status
0    1   a      1
1    2   b      1
2    3   c    2,1

Run Code Online (Sandbox Code Playgroud)

另一个想法是在第一步中删除重复项，但是如果某些组仅包含缺失值，则会从输出中删除它，因此有必要进行下一步处理，例如merge：

#first group with only NaNs
df= pd.DataFrame({'ID1' : [1,1,2,2,3,3,3],'ID2' : ['a','a','b','b','c','c','c'],
             'Status' : pd.Series([np.nan,np.nan, np.nan,'1','2',np.nan,'1'], 
                                  dtype="category")})


#first group is dropped
df11 = (df.dropna(subset=['Status'])
          .groupby(['ID1','ID2'])['Status']
          .agg(','.join)
          .reset_index())
print (df11)
   ID1 ID2 Status
0    2   b      1
1    3   c    2,1

#added missing pairs and `NaN`s converted to empty strings:
df2 = df.drop_duplicates(['ID1','ID2'])[['ID1','ID2']].merge(df11, how='left').fillna('')
print (df2)
   ID1 ID2 Status
0    1   a       
1    2   b      1
2    3   c    2,1

Run Code Online (Sandbox Code Playgroud)

第一个解决方案：

df1 = df.groupby(['ID1','ID2'])['Status'].agg(lambda x: ','.join(x.dropna())).reset_index()
print (df1)
   ID1 ID2 Status
0    1   a       
1    2   b      1
2    3   c    2,1

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，11 月前
查看次数：	3338 次
最近记录：	5 年，11 月前