Pandas：如何根据不同列的值对列元素的组合进行分组以指示共现？

Question

Pandas：如何根据不同列的值对列元素的组合进行分组以指示共现？

Mel*_*uce 3 python numpy networkx pandas

我有一个df形式的熊猫数据框，

Batch_ID    Product_ID
   1            A
   1            B
   1            C
   2            B
   2            B
   2            C
   2            C
   3            B
   3            B
   3            C
   4            C
   4            D
   5            D

Run Code Online (Sandbox Code Playgroud)

我想从中获得一个边缘列表，本质上是一个新的数据帧edge_list_df（然后我不能将其转换为 networkx 对象），

Source       Target         Weight
  A             B             1.0
  A             C             1.0
  A             D             0.0
  B             C             3.0
  B             D             0.0
  C             D             1.0

Run Code Online (Sandbox Code Playgroud)

请注意，我在示例中给出了许多不同的可能性，以确保我的问题清楚。例如，即使 Batch_ID=2 BC 组合出现两次，计数器也不会增加两次。

实现这一目标的最有效方法是什么？

Answer 1

DYZ*_*DYZ 5

这是我的看法：

from itertools import combinations

def combine(batch):
    """Combine all products within one batch into pairs"""
    return pd.Series(list(combinations(set(batch), 2)))

edges = df.groupby('Batch_ID')['Product_ID'].apply(combine).value_counts()
edges
#(B, C)    3
#(A, B)    1
#(A, C)    1
#(D, C)    1

Run Code Online (Sandbox Code Playgroud)

我知道实际上并不需要 0 次出现的边缘。

如果需要，您可以进一步将索引拆分为源和目标：

edges = edges.reset_index()
edges = pd.concat([edges, edges['index'].apply(pd.Series)], axis=1)
edges.drop(['index'], axis=1, inplace=True)
edges.columns = 'Weight','Source','Target'
#       Weight Source Target
#0       3      B      C
#1       1      A      B
#2       1      A      C
#3       1      D      C

Run Code Online (Sandbox Code Playgroud)

或者：

c = ['Source', 'Target']
L = edges.index.values.tolist()
edges = pd.DataFrame(L, columns=c).join(edges.reset_index(drop=True))

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，7 月前
查看次数：	1036 次
最近记录：	7 年，6 月前