bjg*_*bjg 3 python pandas pandas-groupby
我试图弄清楚如何计算2个字符串的给定组合,而不管哪个字符串是第一/第二。
这是我的代码:
import pandas as pd
mylist = [[('Smith JR', 'Kim YY'), ('Smith JR', 'Ron AA'), ('Kim YY', 'Ron AA')],
[('Kim YY', 'Smith JR')], [('Smith JR', 'Ron AA')]]
flat_list = [item for sublist in mylist for item in sublist]
df = pd.DataFrame(flat_list, columns=["From", "To"])
df_graph = df.groupby(["From", "To"]).size().reset_index()
df_graph.columns = ["From", "To", "Count"]
print(df_graph)
Run Code Online (Sandbox Code Playgroud)
这使:
From To Count
0 Kim YY Ron AA 1
1 Kim YY Smith JR 1
2 Smith JR Kim YY 1
3 Smith JR Ron AA 2
Run Code Online (Sandbox Code Playgroud)
但是由于Kim YY Smith JR和Smith JR Kim YY在相同的两个人之间建立了联系,因此我希望提供:
From To Count
0 Kim YY Ron AA 1
1 Kim YY Smith JR 2
2 Smith JR Ron AA 2
Run Code Online (Sandbox Code Playgroud)
我已经看到了许多解决方案,这些解决方案可以删除重复的行,但不能按我的意愿将每行的计数合并在一起。我似乎无法弄清楚如何结合
1 Kim YY Smith JR 1
2 Smith JR Kim YY 1
Run Code Online (Sandbox Code Playgroud)
这样,仅保留Kim YY-Smith JR行并且Count为2。此外,在我的实际数据中,给定行的计数可以大于1。
将两列排序在一起,然后再添加到数据框,以确保一对将仅以特定顺序出现。然后才应用您的计数方法。使用链接中的方法进行排序:
import pandas as pd
import networkx as nx
mylist = [[('Smith JR','Kim YY'),('Smith JR','Ron AA'),('Kim YY','Ron AA')],[('Kim YY','Smith JR')],[('Smith JR','Ron AA')]]
flat_list = [item for sublist in mylist for item in sublist]
df = pd.DataFrame(flat_list, columns=["From", "To"])
#create a new dataframe with the value pairs sorted. You can also sort earlier if you prefer.
df = pd.DataFrame(np.sort(df[["From", "To"]]), columns = ["From", "To"])
#now, just apply the groupby.
df_graph = df.groupby(["From", "To"], axis=0).size().reset_index()
#Output:
From To 0
0 Kim YY Ron AA 1
1 Kim YY Smith JR 2
2 Ron AA Smith JR 2
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
67 次 |
| 最近记录: |