(查询,文档,相关性)免费数据集,用于构建信息检索系统

AHS*_*AHS 2 information-retrieval machine-learning dataset supervised-learning

我有兴趣找到像"英国相关判断文件列表"这样的数据集:http: //trec.nist.gov/data/qrels_eng

此数据集包含标记的查询和文档对.但是,它取决于非自由语料库,称为"数据 - 英语文档":http: //trec.nist.gov/data/docs_eng.html

你知道这个类似的免费数据集吗?

附注:该数据集将用于研究项目,用于构建基于神经网络的信息检索系统.

小智 8

您在问题中混淆了几个TREC集合.ClueWeb09和trec.nist.gov/data/docs_eng.html指向的文档集都是单独的文档集.也就是说,每个文档集都有自己独特的主题(查询)和相关性判断,这些不是文档集分布的一部分.

有许多不同的TREC文本检索测试集合.TREC数据页面(trec.nist.gov/data.html)列出了可用的集合,这些页面由TREC轨道组织创建.它们以这种方式组织,因为集合通常旨在支持检索问题该赛道旨在支持.

通常,查询和相关性判断可以直接从TREC站点下载.通常必须购买文档集:文档集由原始来源版权所有,并且必须获得许可,或者与收集/分发文档集相关的其他重大费用.如果您参加TREC,您可以免费获得一些旧的TREC文档集(尽管今年不再是一个选项).一些文档集是免费的,但大多数仍需要签署数据使用协议.Genomics轨道有一个临时搜索任务,其文档集是免费的,受数据使用协议的约束.见http://trec.nist.gov/data/genomics.html.

格拉斯哥大学在http://ir.dcs.gla.ac.uk/resources/test_collections/上维护着一个指向其他可用测试集的页面,其中一些是免费的.其中大部分是TREC之前(1992年之前)的系列,按照今天的标准来看,这些系列非常小.(如你所知,"Tiny"可能会发现论文评论员对仅在小型收藏中展示的结果持高度怀疑态度.)

NIST的TREC项目经理Ellen Voorhees