小编S.k*_*k.S的帖子

使用熊猫分组和比较组

我有看起来像的数据:

Identifier  Category1 Category2 Category3 Category4 Category5
1000           foo      bat       678         a.x       ld
1000           foo      bat       78          l.o       op
1000           coo      cat       678         p.o       kt
1001           coo      sat       89          a.x       hd
1001           foo      bat       78          l.o       op
1002           foo      bat       678         a.x       ld
1002           foo      bat       78          l.o       op
1002           coo      cat       678         p.o       kt
Run Code Online (Sandbox Code Playgroud)

我想做的是比较1000与1001和1002,依此类推。我希望代码提供的输出是:1000与1002相同。因此,我想使用的方法是:

  1. 首先将所有标识符项分组到单独的数据帧中(也许吗?)。例如,df1将是与标识符1000有关的所有行,而df2将是与标识符1002有关的所有行。手动比较标识符**)。我尝试使用pandas的groupby功能,它很好地完成了分组,但是后来我不知道如何比较分组。
  2. 比较每个组/子数据帧。

我想到的一种方法是将特定标识符的每一行读入数组/向量,并使用比较度量(曼哈顿距离,余弦相似度等)比较数组/向量。

感谢您的任何帮助,我对Python还是很陌生。提前致谢!

python dataframe pandas

5
推荐指数
1
解决办法
2676
查看次数

标签 统计

dataframe ×1

pandas ×1

python ×1