Pro*_*mer 7 statistics information-retrieval probability
假设我的检索系统的NDCG分数是.8.我如何解释这个分数.我如何告诉读者这个分数是否显着?
Waz*_*azy 12
为了理解这一点,让我们检查一个归一化折扣累积增益 (nDCG) 的例子
对于 nDCG,我们需要 DCG 和理想 DCG (IDCG)
让我们先了解什么是累积增益 (CG),
Example: Suppose we have [Doc_1, Doc_2, Doc_3, Doc_4, Doc_5]
Doc_1 is 100% relevant
Doc_2 is 70% relevant
Doc_3 is 95% relevant
Doc_4 is 20% relevant
Doc_5 is 100% relevant
Run Code Online (Sandbox Code Playgroud)
所以我们的累积增益 (CG) 是
CG = 100 + 70 + 95 + 20 + 100 ###(Index of the doc doesn't matter)
= 385
Run Code Online (Sandbox Code Playgroud)
和
贴现累积收益 (DCG) 是
DCG = SUM( relivencyAt(index) / log2(index + 1) ) ###where index 1 -> 5
Doc_1 is 100 / log2(2) = 100.00
Doc_2 is 70 / log2(3) = 044.17
Doc_3 is 95 / log2(4) = 047.50
Doc_4 is 20 / log2(5) = 008.61
Doc_5 is 100 / log2(6) = 038.69
DCG = 100 + 44.17 + 47.5 + 8.61 + 38.69
DCG = 238.97
Run Code Online (Sandbox Code Playgroud)
理想的 DCG 是
IDCG = Doc_1 , Doc_5, Doc_3, Doc_2, Doc_4
Doc_1 is 100 / log2(2) = 100.00
Doc_5 is 100 / log2(3) = 063.09
Doc_3 is 95 / log2(4) = 047.50
Doc_2 is 75 / log2(5) = 032.30
Doc_4 is 20 / log2(6) = 007.74
IDCG = 100 + 63.09 + 47.5 + 32.30 + 7.74
IDCG = 250.63
nDCG(5) = DCG / IDCG
= 238.97 / 250.63
= 0.95
Run Code Online (Sandbox Code Playgroud)
结论:
在给定的示例中,nDCG 为 0.95,0.95 不是预测准确度,0.95 是文档有效的排名。因此,收益是从结果列表的顶部到底部累积的,每个结果的收益在较低的排名中打折。
维基参考
NDCG是排名度量.在信息检索字段中,您应预测已排序的文档列表,并将其与相关文档列表进行比较.想象一下,您预测了1000个文档的排序列表,并且有100个相关文档,当100个相关文档在列表中具有100个最高排名时,NDCG等于1.
所以.8 NDCG是最佳排名的80%.
这是一个直观的解释,真正的数学包括一些对数,但它离此不远.