小编Pyt*_*ner的帖子

不同长度的两个数据帧的列之间的余弦相似度?

我在 df1 中有文本列,在 df2 中有文本列。df2 的长度将与 df1 的长度不同。我想根据 df2[text] 中的每个条目计算 df1[text] 中每个条目的余弦相似度,并为每个匹配项打分。

样本输入

df1                           
mahesh                 
suresh


df2                                                                                  
surendra    
mahesh    
shrivatsa    
suresh    
maheshwari
Run Code Online (Sandbox Code Playgroud)

样本输出

mahesh    surendra       30
mahesh    mahesh         100
mahesh    shrivatsa      20
mahesh    suresh         60
mahesh    maheshwari     80
suresh    surendra       70
suresh    mahesh         60
suresh    shrivatsa      40
suresh    suresh         100
suresh    maheshwari     30
Run Code Online (Sandbox Code Playgroud)

当我尝试使用 tf-idf 方法匹配这两列的相似性时,我遇到了问题(获取关键错误),因为这些列的长度不同。有没有其他方法可以解决这个问题...任何帮助将不胜感激。我进行了大量搜索,发现在几乎所有情况下,人们都将第一个文档与同一语料库中的其余文档进行比较。这就像将语料库 1 的每个文档与 corpus2 上的每个文档进行比较。

python name-matching dataframe pandas cosine-similarity

4
推荐指数
1
解决办法
4708
查看次数