小编viv*_*vek的帖子

在python中找到最相似的句子

建议/参考链接/代码表示赞赏。

我有一个超过 1500 行的数据。每一行都有一个句子。我试图找出在所有句子中找到最相似句子的最佳方法。

我试过的

我尝试过 K-mean 算法，它将相似的句子分组在一个集群中。但是我发现了一个缺点，我必须通过K来创建一个集群。很难猜测K。我尝试了 elbo 方法来猜测集群，但将所有组合在一起是不够的。在这种方法中，我将所有数据分组。我正在寻找与 0.90% 以上的数据类似的数据，应返回 ID。
我尝试了余弦相似度，其中我用来TfidfVectorizer创建矩阵，然后传入余弦相似度。即使这种方法也不能正常工作。

我在寻找什么

我想要一种方法，我可以在其中传递阈值示例 0.90 的所有行中的数据，这些数据应该作为结果返回。

Data Sample
ID    |   DESCRIPTION
-----------------------------
10    | Cancel ASN WMS Cancel ASN   
11    | MAXPREDO Validation is corect
12    | Move to QC  
13    | Cancel ASN WMS Cancel ASN   
14    | MAXPREDO Validation is right
15    | Verify files are sent every hours for this interface from Optima
16    | MAXPREDO Validation …

Run Code Online (Sandbox Code Playgroud)

python scikit-learn sentence-similarity tensorflow

viv*_*vek

lucky-day

2
推荐指数

1
解决办法

2504
查看次数