tf-idf:我理解对吗?

als*_*snd 5 language-agnostic algorithm text-processing information-retrieval tf-idf

我对进行一些文档聚类感兴趣,现在我正在考虑使用 TF-IDF 来实现此目的。

如果我没记错的话,TF-IDF 特别用于评估给定查询的文档的相关性。如果我没有特定的查询,如何将 tf-idf 应用于聚类?

Pie*_*rOz 4

实际上并不完全是:tf-idf为您提供给定文档中术语的相关性因此,您可以通过计算相似度来完美地将它用于
集群

proximity(document_i, document_j) = sum(tf_idf(t,i) * tf_idf(t,j))
Run Code Online (Sandbox Code Playgroud)

对于文档 i 和文档 j 中的每个术语 t。