如何从 Gensim TFIDF 值执行 kmean 聚类

Question

如何从 Gensim TFIDF 值执行 kmean 聚类

Nhq*_*azi 5 numpy corpus tf-idf k-means gensim

我正在使用 Gensim 进行向量空间模型。从 Gensim 创建字典和语料库后，我使用以下行计算了（术语频率*逆文档频率）TFIDF

Term_IDF  = TfidfModel(corpus)
corpus_tfidf = Term_IDF[corpus]

Run Code Online (Sandbox Code Playgroud)

corpus_tfidf 包含具有术语 ID 和相应 TFIDF 的列表的列表。然后我使用以下几行将 TFIDF 与 id 分开：

 for doc in corpus_tfidf:
     for ids,tfidf in doc:    
         IDS.append(ids)
         tfidfmtx.append(tfidf)    
         IDS=[]

Run Code Online (Sandbox Code Playgroud)

现在我想使用 k-means 聚类，所以我想执行 tfidf 矩阵的余弦相似性问题是 Gensim 不产生方阵，所以当我运行以下行时，它会产生错误。我想知道如何从 Gensim 获取方阵来计算向量空间模型中所有文档的相似性。还有如何将 tfidf 矩阵（在这种情况下是列表列表）转换为 2D NumPy 数组。任何评论都非常感谢。

dumydist = 1 - cosine_similarity(tfidfmtx)

Answer 1

DrG*_*A81 7

当您将语料库放入 Gensim 字典时，获取字典中的数字或文档和标记：

from gensim.corpora.dictionary import Dictionary
dictionary = Dictionary(corpus_lists)
num_docs = dictionary.num_docs
num_terms = len(dictionary.keys())

Run Code Online (Sandbox Code Playgroud)

变身弓：

corpus_bow = [dictionary.doc2bow(doc) for doc in corpus_lists]

Run Code Online (Sandbox Code Playgroud)

转换成 tf-idf：

from gensim.models.tfidfmodel import TfidfModel
tfidf = TfidfModel(corpus_bow)
corpus_tfidf = tfidf[corpus_bow]

Run Code Online (Sandbox Code Playgroud)

现在您可以转换为稀疏/密集矩阵：

from gensim.matutils import corpus2dense, corpus2csc
corpus_tfidf_dense = corpus2dense(corpus_tfidf, num_terms, num_docs)
corpus_tfidf_sparse = corpus2csc(corpus_tfidf, num_terms, num_docs)

Run Code Online (Sandbox Code Playgroud)

现在使用稀疏/密集矩阵（转置后）拟合您的模型：

model = KMeans(n_clusters=7)
clusters = model.fit_predict(corpus_bow_dense.T)

Run Code Online (Sandbox Code Playgroud)

Answer 2

Ate*_*dra 3

要从 gensim 创建文档术语矩阵，您可以使用 matutils.corpus2csv

语料库 - 列表列表(Genism Corpus)

from scipy.sparse import csc_matrix

scipy_csc_matrix =genism.matutils.corpus2csc(corpus)

full_matrix=csc_matrix(scipy_csc_matrix).toarray()

Run Code Online (Sandbox Code Playgroud)

如果您的语料库非常大，您可能需要使用 scipy 稀疏格式。

归档时间：	7 年，8 月前
查看次数：	2059 次
最近记录：	6 年，11 月前