mir*_*our 5 nlp search-engine google-search bing
我有兴趣在用户生成的搜索查询之上训练问答系统,但到目前为止,似乎还没有提供此类数据。是否有一些研究中心或行业实验室编译了搜索引擎查询的语料库?
有几个这样的数据集:
雅虎网络镜:- http://webscope.sandbox.yahoo.com/catalog.php?datatype=l
Yandex 数据集:- https://www.kaggle.com/c/yandex-personalized-web-search-challenge/data Kaggle 问题的一部分。您可以注册并下载。
还有 AOL 查询日志和 MSN 查询日志,它们在过去 10 年中作为共享任务的一部分被公开。我不确定它们是否仍然是公开的。不过你可以稍微探索一下。