小编viv*_*vek的帖子

在python中找到最相似的句子

建议/参考链接/代码表示赞赏。

我有一个超过 1500 行的数据。每一行都有一个句子。我试图找出在所有句子中找到最相似句子的最佳方法。

我试过的

  1. 我尝试过 K-mean 算法,它将相似的句子分组在一个集群中。但是我发现了一个缺点,我必须通过K来创建一个集群。很难猜测K。我尝试了 elbo 方法来猜测集群,但将所有组合在一起是不够的。在这种方法中,我将所有数据分组。我正在寻找与 0.90% 以上的数据类似的数据,应返回 ID。

  2. 我尝试了余弦相似度,其中我用来TfidfVectorizer创建矩阵,然后传入余弦相似度。即使这种方法也不能正常工作。

我在寻找什么

我想要一种方法,我可以在其中传递阈值示例 0.90 的所有行中的数据,这些数据应该作为结果返回。

Data Sample
ID    |   DESCRIPTION
-----------------------------
10    | Cancel ASN WMS Cancel ASN   
11    | MAXPREDO Validation is corect
12    | Move to QC  
13    | Cancel ASN WMS Cancel ASN   
14    | MAXPREDO Validation is right
15    | Verify files are sent every hours for this interface from Optima
16    | MAXPREDO Validation …
Run Code Online (Sandbox Code Playgroud)

python scikit-learn sentence-similarity tensorflow

2
推荐指数
1
解决办法
2504
查看次数