建议/参考链接/代码表示赞赏。
我有一个超过 1500 行的数据。每一行都有一个句子。我试图找出在所有句子中找到最相似句子的最佳方法。
我试过的
我尝试过 K-mean 算法,它将相似的句子分组在一个集群中。但是我发现了一个缺点,我必须通过K来创建一个集群。很难猜测K。我尝试了 elbo 方法来猜测集群,但将所有组合在一起是不够的。在这种方法中,我将所有数据分组。我正在寻找与 0.90% 以上的数据类似的数据,应返回 ID。
我尝试了余弦相似度,其中我用来TfidfVectorizer创建矩阵,然后传入余弦相似度。即使这种方法也不能正常工作。
我在寻找什么
我想要一种方法,我可以在其中传递阈值示例 0.90 的所有行中的数据,这些数据应该作为结果返回。
Data Sample
ID | DESCRIPTION
-----------------------------
10 | Cancel ASN WMS Cancel ASN
11 | MAXPREDO Validation is corect
12 | Move to QC
13 | Cancel ASN WMS Cancel ASN
14 | MAXPREDO Validation is right
15 | Verify files are sent every hours for this interface from Optima
16 | MAXPREDO Validation …Run Code Online (Sandbox Code Playgroud)