als*_*snd 5 language-agnostic algorithm text-processing information-retrieval tf-idf
我对进行一些文档聚类感兴趣,现在我正在考虑使用 TF-IDF 来实现此目的。
如果我没记错的话,TF-IDF 特别用于评估给定查询的文档的相关性。如果我没有特定的查询,如何将 tf-idf 应用于聚类?
实际上并不完全是:tf-idf为您提供给定文档中术语的相关性。因此,您可以通过计算相似度来完美地将它用于
集群
proximity(document_i, document_j) = sum(tf_idf(t,i) * tf_idf(t,j))
Run Code Online (Sandbox Code Playgroud)
对于文档 i 和文档 j 中的每个术语 t。