Nus*_*rat 7 information-retrieval
我正在研究Okapi BMS25型号.我理解一切,但两个混乱.在计算文档长度(dl)和平均文档长度(avdl)时.我发现文件的长度是

因此,它是特定文档中我的关键字/术语的总和.但是当我看到维基的def:

所以| D | 是单词中文档D的长度(即总单词数的总和).现在,问题究竟是什么dl?
现在,第二个问题如何计算avdl?(只计算(doc1 + doc2 + ... N)/ N,其中N是我的总数没有收藏的文件?(并且avdl是固定的整个收藏?)
根据JoaquínPérez-Iglesias 将概率模型BM25/BM25F整合到Lucene中,得分函数R应定义如下:

如
occurs_t^d是tin的频率d,l_d是文件d长度.avl_d 是集合中文档的平均长度k_1是一个自由参数,通常为2和b[0,1](通常为0.75).分配0 b等同于避免标准化过程,因此文档长度不会影响最终分数.
如果b取1,我们将进行全长标准化.

这里N是文档集合中的号码,df就是出现了长期的文件数量t.
| 归档时间: |
|
| 查看次数: |
1490 次 |
| 最近记录: |