Kir*_*ril 1 information-retrieval
我正在尝试评估信息检索方法.因此,我需要适合克兰菲尔德实验的数据:
不幸的是我没有找到任何可以免费获得的东西......
数据集:
克兰菲尔德发布了大约3000篇摘要和一系列相关判断的查询.但是,使用此集合是不可取的,因为它非常小.
对于中等大小的集合,您可以使用5个卷中的TREC临时搜索数据.通常使用第4卷和第5卷.这些文档(大约五十万)对应于TREC Robust查询集(TREC 6/7/8和Robust轨道),总共包含250个查询.
INEX临时搜索任务数据包括XML文档集合(27G维基百科转储的集合).相关性判断包括整篇文章中标注的相关段落.任务是检索这些段落.
对于非英语文档,您可以使用CLEF数据(欧洲语言)或FIRE数据(南亚语言).
对于较大的集合,您可以使用ClueWeb(TREC网络搜索轨道).大小为25Tb.
或者,您也可以使用特定领域的测试集合,例如Tweets语料库(TREC微博搜索轨道),法律文件(TREC法律轨道),专利集合(CLEF-IP),医疗馆藏(Pub-Med)等.
可用性:
大多数这些系列都是免费提供的.您只需要注册该曲目(如果它是正在进行的曲目),他们将为您提供数据.一些过去的曲目使得数据在轨道网页中可用.TREC ad hoc和ClueWeb数据不是免费提供的.然而,最近的TREC轨迹使数据免费提供.INEX,FIRE和CLEF的各种数据集都是免费提供的.只需向(过去)组织者发送电子邮件,以防他们删除了指向数据的链接.