在python中找到最相似的句子

Question

在python中找到最相似的句子

viv*_*vek 2 python scikit-learn sentence-similarity tensorflow

建议/参考链接/代码表示赞赏。

我有一个超过 1500 行的数据。每一行都有一个句子。我试图找出在所有句子中找到最相似句子的最佳方法。

我试过的

我尝试过 K-mean 算法，它将相似的句子分组在一个集群中。但是我发现了一个缺点，我必须通过K来创建一个集群。很难猜测K。我尝试了 elbo 方法来猜测集群，但将所有组合在一起是不够的。在这种方法中，我将所有数据分组。我正在寻找与 0.90% 以上的数据类似的数据，应返回 ID。
我尝试了余弦相似度，其中我用来TfidfVectorizer创建矩阵，然后传入余弦相似度。即使这种方法也不能正常工作。

我在寻找什么

我想要一种方法，我可以在其中传递阈值示例 0.90 的所有行中的数据，这些数据应该作为结果返回。

Data Sample
ID    |   DESCRIPTION
-----------------------------
10    | Cancel ASN WMS Cancel ASN   
11    | MAXPREDO Validation is corect
12    | Move to QC  
13    | Cancel ASN WMS Cancel ASN   
14    | MAXPREDO Validation is right
15    | Verify files are sent every hours for this interface from Optima
16    | MAXPREDO Validation are correct
17    | Move to QC  
18    | Verify files are not sent

Run Code Online (Sandbox Code Playgroud)

预期结果

上面的数据相似度高达 0.90% 应该得到带有ID的结果

Answer 1

Kim*_*ang 5

为什么它对余弦相似度和 TFIDF 向量化器不起作用？

我试过了，它适用于以下代码：

import pandas as pd
import numpy as np

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

df = pd.DataFrame(columns=["ID","DESCRIPTION"], data=np.matrix([[10,"Cancel ASN WMS Cancel ASN"],
                                                                [11,"MAXPREDO Validation is corect"],
                                                                [12,"Move to QC"],
                                                                [13,"Cancel ASN WMS Cancel ASN"],
                                                                [14,"MAXPREDO Validation is right"],
                                                                [15,"Verify files are sent every hours for this interface from Optima"],
                                                                [16,"MAXPREDO Validation are correct"],
                                                                [17,"Move to QC"],
                                                                [18,"Verify files are not sent"]
                                                                ]))

corpus = list(df["DESCRIPTION"].values)

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)

threshold = 0.4

for x in range(0,X.shape[0]):
  for y in range(x,X.shape[0]):
    if(x!=y):
      if(cosine_similarity(X[x],X[y])>threshold):
        print(df["ID"][x],":",corpus[x])
        print(df["ID"][y],":",corpus[y])
        print("Cosine similarity:",cosine_similarity(X[x],X[y]))
        print()

Run Code Online (Sandbox Code Playgroud)

阈值也可以调整，但阈值为 0.9 时不会产生您想要的结果。

阈值为 0.4 的输出为：

10 : Cancel ASN WMS Cancel ASN
13 : Cancel ASN WMS Cancel ASN
Cosine similarity: [[1.]]

11 : MAXPREDO Validation is corect
14 : MAXPREDO Validation is right
Cosine similarity: [[0.64183024]]

12 : Move to QC
17 : Move to QC
Cosine similarity: [[1.]]

15 : Verify files are sent every hours for this interface from Optima
18 : Verify files are not sent
Cosine similarity: [[0.44897995]]

Run Code Online (Sandbox Code Playgroud)

阈值为 0.39 时，所有预期的句子都是输出中的特征，但也可以找到带有索引 [15,18] 的附加对：

10 : Cancel ASN WMS Cancel ASN
13 : Cancel ASN WMS Cancel ASN
Cosine similarity: [[1.]]

11 : MAXPREDO Validation is corect
14 : MAXPREDO Validation is right
Cosine similarity: [[0.64183024]]

11 : MAXPREDO Validation is corect
16 : MAXPREDO Validation are correct
Cosine similarity: [[0.39895808]]

12 : Move to QC
17 : Move to QC
Cosine similarity: [[1.]]

14 : MAXPREDO Validation is right
16 : MAXPREDO Validation are correct
Cosine similarity: [[0.39895808]]

15 : Verify files are sent every hours for this interface from Optima
18 : Verify files are not sent
Cosine similarity: [[0.44897995]]

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，5 月前
查看次数：	2504 次
最近记录：	4 年，5 月前