Okapi BM25的平均文件长度

Nus*_*rat 7 information-retrieval

我正在研究Okapi BMS25型号.我理解一切,但两个混乱.在计算文档长度(dl)和平均文档长度(avdl)时.我发现文件的长度是

在此输入图像描述

因此,它是特定文档中我的关键字/术语的总和.但是当我看到维基的def:

在此输入图像描述

所以| D | 是单词中文档D的长度(即总单词数的总和).现在,问题究竟是什么dl?

现在,第二个问题如何计算avdl?(只计算(doc1 + doc2 + ... N)/ N,其中N是我的总数没有收藏的文件?(并且avdl是固定的整个收藏?)

eli*_*sah 7

根据JoaquínPérez-Iglesias 将概率模型BM25/BM25F整合到Lucene中,得分函数R应定义如下:

在此输入图像描述

  • occurs_t^dtin的频率d,
  • l_d是文件d长度.
  • avl_d 是集合中文档的平均长度
  • k_1是一个自由参数,通常为2和b[0,1](通常为0.75).

分配0 b等同于避免标准化过程,因此文档长度不会影响最终分数.

如果b取1,我们将进行全长标准化.

在此输入图像描述

这里N是文档集合中的号码,df就是出现了长期的文件数量t.

  • 当有人花时间解释数学时真的很好.干杯 (3认同)