idf对排名一个词查询没有影响

Bil*_*eng 5 data-retrieval tf-idf

我正在阅读这篇文章,它说

请注意,IDF取决于查询词(T)和整个数据库。特别是,文档之间的差异不大。因此,IDF将对1字查询无效。

我不太明白。如果TF-IDF(T) = TF * log(N/dbCount[T])为什么对1字查询无效?

小智 2

要理解这一点,我们需要了解 TF-IDF 实际实现的目标。假设我们有 N 个文档 D1、D2、D3.........DN。我们希望为每个文档分配一个 TF-IDF 分数,然后具有最高 TF-IDF 分数的文档是最相关的搜索,其次是具有第二高 TF-IDF 分数的文档。现在 IDF 仅依赖于查询术语和整个语料库。所以它的值对于所有文档都是一个常量 (log(N/dbCount[T]) N 和 dbCount[T] 不依赖于文档。对于 D1、D2、D3.. DN 来说它是相同的。所以每个文档的 TF-TDF 分数将按该常量向上/向下缩放,这对于所有文档都是相同的。实际上,相对排名不会改变。因此,对于一个术语,您实际上可以跳过它