以下几个文件的IDF如何不同?

kno*_*kio 1 information-retrieval tf-idf

我正在使用LETOR来建立一个信息检索系统.他们使用TF和IDF.我确信TF依赖于查询.但以色列国防军应该这样做,但是:

"请注意,IDF与文档无关,因此查询下的所有文档都具有相同的IDF值."

但这没有意义,因为IDF是功能列表的一部分.如何计算每份文件的IDF?

jsh*_*hen 5

IDF是特定于术语的.任何给定术语的IDF与文档无关,但TF是特定于文档的.

用不同的方式说.假设我们有3个文件.

doc id 1"快速的棕色狐狸跳过懒狗"

doc id 2"The Sly Fox Pub Annapolis位于教堂圈"

doc id 3"位于教堂圈,位于历史街区的中心地带"

现在,如果IDF是(文档数量)/(包含术语t的文档数量),那么无论搜索是什么或文档是什么,术语狐狸的IDF都是3/2.所以IDF是t的函数.

另一方面,TF是t和d的函数.因此,对于doc id 1,'the'的TF是2.