如何证明NDCG得分显着

Question

如何证明NDCG得分显着

Pro*_*mer 7 statistics information-retrieval probability

假设我的检索系统的NDCG分数是.8.我如何解释这个分数.我如何告诉读者这个分数是否显着？

Answer 1

为了理解这一点，让我们检查一个归一化折扣累积增益 (nDCG) 的例子
对于 nDCG，我们需要 DCG 和理想 DCG (IDCG)
让我们先了解什么是累积增益 (CG)，

Example: Suppose we have [Doc_1, Doc_2, Doc_3, Doc_4, Doc_5]
Doc_1 is 100% relevant
Doc_2 is 70% relevant
Doc_3 is 95% relevant
Doc_4 is 20% relevant
Doc_5 is 100% relevant

Run Code Online (Sandbox Code Playgroud)

所以我们的累积增益 (CG) 是

CG = 100 + 70 + 95 + 20 + 100  ###(Index of the doc doesn't matter)
   = 385

Run Code Online (Sandbox Code Playgroud)

和
贴现累积收益 (DCG) 是

DCG = SUM( relivencyAt(index) / log2(index + 1) ) ###where index 1 -> 5

Doc_1 is 100 / log2(2) = 100.00
Doc_2 is 70  / log2(3) = 044.17
Doc_3 is 95  / log2(4) = 047.50
Doc_4 is 20  / log2(5) = 008.61
Doc_5 is 100 / log2(6) = 038.69

DCG = 100 + 44.17 + 47.5 + 8.61 + 38.69
DCG = 238.97

Run Code Online (Sandbox Code Playgroud)

理想的 DCG 是

IDCG = Doc_1 , Doc_5, Doc_3, Doc_2, Doc_4

Doc_1 is 100 / log2(2) = 100.00
Doc_5 is 100 / log2(3) = 063.09
Doc_3 is 95  / log2(4) = 047.50
Doc_2 is 75  / log2(5) = 032.30
Doc_4 is 20  / log2(6) = 007.74

IDCG = 100 + 63.09 + 47.5 + 32.30 + 7.74
IDCG = 250.63

nDCG(5) = DCG    / IDCG
        = 238.97 / 250.63
        = 0.95

Run Code Online (Sandbox Code Playgroud)

结论：

在给定的示例中，nDCG 为 0.95，0.95 不是预测准确度，0.95 是文档有效的排名。因此，收益是从结果列表的顶部到底部累积的，每个结果的收益在较低的排名中打折。
维基参考

这是一个非常有帮助的评论。这些计算如何工作的非常字面的例子。 (2认同)

Answer 2

Aug*_*sto 9

NDCG是排名度量.在信息检索字段中,您应预测已排序的文档列表,并将其与相关文档列表进行比较.想象一下,您预测了1000个文档的排序列表,并且有100个相关文档,当100个相关文档在列表中具有100个最高排名时,NDCG等于1.

所以.8 NDCG是最佳排名的80%.

这是一个直观的解释,真正的数学包括一些对数,但它离此不远.

归档时间：	14 年前
查看次数：	2648 次
最近记录：	7 年前