Okapi BM25的平均文件长度

Question

我正在研究Okapi BMS25型号.我理解一切,但两个混乱.在计算文档长度(dl)和平均文档长度(avdl)时.我发现文件的长度是

在此输入图像描述

因此,它是特定文档中我的关键字/术语的总和.但是当我看到维基的def:

在此输入图像描述

所以| D | 是单词中文档D的长度(即总单词数的总和).现在,问题究竟是什么dl？

现在,第二个问题如何计算avdl？(只计算(doc1 + doc2 + ... N)/ N,其中N是我的总数没有收藏的文件？(并且avdl是固定的整个收藏？)

Answer 1

根据JoaquínPérez-Iglesias 将概率模型BM25/BM25F整合到Lucene中,得分函数R应定义如下:

在此输入图像描述

如

分配0 b等同于避免标准化过程,因此文档长度不会影响最终分数.

如果b取1,我们将进行全长标准化.

在此输入图像描述

这里N是文档集合中的号码,df就是出现了长期的文件数量t.