我有看起来像的数据:
Identifier Category1 Category2 Category3 Category4 Category5
1000 foo bat 678 a.x ld
1000 foo bat 78 l.o op
1000 coo cat 678 p.o kt
1001 coo sat 89 a.x hd
1001 foo bat 78 l.o op
1002 foo bat 678 a.x ld
1002 foo bat 78 l.o op
1002 coo cat 678 p.o kt
Run Code Online (Sandbox Code Playgroud)
我想做的是比较1000与1001和1002,依此类推。我希望代码提供的输出是:1000与1002相同。因此,我想使用的方法是:
我想到的一种方法是将特定标识符的每一行读入数组/向量,并使用比较度量(曼哈顿距离,余弦相似度等)比较数组/向量。
感谢您的任何帮助,我对Python还是很陌生。提前致谢!