了解召回和精确度

Bob*_*rks 3 information-retrieval search-engine precision-recall

我目前正在学习信息检索,我宁愿坚持召回和精确的例子

搜索者使用搜索引擎来查找信息.第一个结果屏幕上有10个文档,第二个屏幕上有10个文档.

假设在搜索引擎索引中已知有10个相关文档.

Soo ...共有20个搜索,其中10个是相关的.

任何人都可以帮我理解这个吗?

谢谢

spi*_*ike 8

召回和精确测量结果的质量.为了理解它们,我们首先定义结果的类型.返回列表中的文档可以是

  • 分类正确

    • 真正的正面(TP):确实返回的相关(正面)文件(真实)
    • 真正的否定(TN):一个不相关的文件(否定的)确实没有返回(真实)
  • 分类错误

    • 误报(FP):一份不相关但已被退回的文件
    • 假阴性(FN):相关但未被退回的文件

那么精度是:

| TP | /(| TP | + | FP |)

即确实相关的检索文件的分数

那次召回是:

| TP | /(| TP | + | FN |)

即结果集中相关文档的分数

因此,在您的示例中,20个结果中有10个是相关的.这使您的精度为0.5.如果不超过这10个相关文件,则召回1.

(当测量信息检索系统的性能时,仅考虑精度和召回是有意义的.通过根本不返回任何结果(即没有虚假返回实例=>无FP)或召回,您可以轻松获得100%的精度通过返回每个实例100%(即没有错过相关文档=>没有FN).)