克兰菲尔德实验的公共数据集

Kir*_*ril 1 information-retrieval

我正在尝试评估信息检索方法.因此,我需要适合克兰菲尔德实验的数据:

  1. 文件(D)
  2. 查询(Q)
  3. 相关性(Q,D)

不幸的是我没有找到任何可以免费获得的东西......

Deb*_*sis 5

数据集:

克兰菲尔德发布了大约3000篇摘要和一系列相关判断的查询.但是,使用此集合是不可取的,因为它非常小.

对于中等大小的集合,您可以使用5个卷中的TREC临时搜索数据.通常使用第4卷和第5卷.这些文档(大约五十万)对应于TREC Robust查询集(TREC 6/7/8和Robust轨道),总共包含250个查询.

INEX临时搜索任务数据包括XML文档集合(27G维基百科转储的集合).相关性判断包括整篇文章中标注的相关段落.任务是检索这些段落.

对于非英语文档,您可以使用CLEF数据(欧洲语言)或FIRE数据(南亚语言).

对于较大的集合,您可以使用ClueWeb(TREC网络搜索轨道).大小为25Tb.

或者,您也可以使用特定领域的测试集合,例如Tweets语料库(TREC微博搜索轨道),法律文件(TREC法律轨道),专利集合(CLEF-IP),医疗馆藏(Pub-Med)等.

可用性:

大多数这些系列都是免费提供的.您只需要注册该曲目(如果它是正在进行的曲目),他们将为您提供数据.一些过去的曲目使得数据在轨道网页中可用.TREC ad hoc和ClueWeb数据不是免费提供的.然而,最近的TREC轨迹使数据免费提供.INEX,FIRE和CLEF的各种数据集都是免费提供的.只需向(过去)组织者发送电子邮件,以防他们删除了指向数据的链接.