Python 中的数据转换/格式化

use*_*292 0 python format pandas

我有以下熊猫数据:

df = {'ID_1': [1,1,1,2,2,3,4,4,4,4],
      'ID_2': ['a', 'b', 'c', 'f', 'g', 'd', 'v', 'x', 'y', 'z']
     }
df = pd.DataFrame(df)
display(df)

ID_1    ID_2
1   a
1   b
1   c
2   f
2   g
3   d
4   v
4   x
4   y
4   z
Run Code Online (Sandbox Code Playgroud)

对于每个ID_1,我需要找到 的组合(顺序无关紧要)ID_2。例如,

ID_1= 1 时,组合为ab, ac, bc。当ID_1= 2 时,组合为fg

请注意,如果频率ID_1<2,则此处没有组合(ID_1例如,参见=3)。

最后,我需要将组合结果存储如下df2

在此输入图像描述

Chr*_*ris 6

一种使用方法itertools.combinations

from itertools import combinations

def comb_df(ser):
    return pd.DataFrame(list(combinations(ser, 2)), columns=["from", "to"])

new_df = df.groupby("ID_1")["ID_2"].apply(comb_df).reset_index(drop=True)
Run Code Online (Sandbox Code Playgroud)

输出:

  from to
0    a  b
1    a  c
2    b  c
3    f  g
4    v  x
5    v  y
6    v  z
7    x  y
8    x  z
9    y  z
Run Code Online (Sandbox Code Playgroud)