Pandas 中作为列的集合的交集

Question

Pandas 中作为列的集合的交集

Kev*_*vin 5 python intersection set pandas

我有一个 df，例如：

df=pd.DataFrame.from_items([('i', [set([1,2,3,4]), set([1,2,3,4]), set([1,2,3,4]),set([1,2,3,4])]), ('j', [set([2,3]), set([1]), set([4]),set([3,4])])])

Run Code Online (Sandbox Code Playgroud)

所以它看起来像

>>> df
              i       j
0  {1, 2, 3, 4}  {2, 3}
1  {1, 2, 3, 4}     {1}
2  {1, 2, 3, 4}     {4}
3  {1, 2, 3, 4}  {3, 4}

Run Code Online (Sandbox Code Playgroud)

我想计算 df.i.intersection(df.j) 并将其分配为列 k。也就是说，我想要这个：

df['k']=[df.i.iloc[t].intersection(df.j.iloc[t]) for t in range(4)]

>>> df.k
0    {2, 3}
1       {1}
2       {4}
3    {3, 4}
Name: k, dtype: object

Run Code Online (Sandbox Code Playgroud)

有 df.apply() 吗？实际的 df 是数百万行。

Answer 1

jez*_*ael 6

使用sets、lists 和dicts inpandas有点问题，因为最好使用标量：

df['k'] = [x[0] & x[1] for x in zip(df['i'], df['j'])]
print (df)
              i       j       k
0  {1, 2, 3, 4}  {2, 3}  {2, 3}
1  {1, 2, 3, 4}     {1}     {1}
2  {1, 2, 3, 4}     {4}     {4}
3  {1, 2, 3, 4}  {3, 4}  {3, 4}

Run Code Online (Sandbox Code Playgroud)

df['k'] = [x[0].intersection(x[1]) for x in zip(df['i'], df['j'])]
print (df)
              i       j       k
0  {1, 2, 3, 4}  {2, 3}  {2, 3}
1  {1, 2, 3, 4}     {1}     {1}
2  {1, 2, 3, 4}     {4}     {4}
3  {1, 2, 3, 4}  {3, 4}  {3, 4}

Run Code Online (Sandbox Code Playgroud)

解决方案apply：

df['k'] = df.apply(lambda x: x['i'].intersection(x['j']), axis=1)
print (df)
              i       j       k
0  {1, 2, 3, 4}  {2, 3}  {2, 3}
1  {1, 2, 3, 4}     {1}     {1}
2  {1, 2, 3, 4}     {4}     {4}
3  {1, 2, 3, 4}  {3, 4}  {3, 4}

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，5 月前
查看次数：	2235 次
最近记录：	8 年，5 月前