寻找数据集来测试FULLTEXT样式搜索

Chr*_*eld 7 mysql database core-data corpus dataset

我正在寻找一个文本语料库来运行一些试验全文风格的数据搜索.我可以下载的东西,或者生成它的系统.更随机的东西会更好,例如1,000,000维基百科文章,格式易于插入2列数据库(id,text).

任何想法或建议?

Pet*_*ans 5

古腾堡计划有 32000 本书可用。

编辑: 截至目前(16 年 6 月 17 日),有 52,284 本免费电子书以UTF-8 格式的纯文本文件下载涉及各种主题(从科学到宗教)。还有 EPUB、Kindle 或 html 格式。在这里查看古腾堡计划


Eri*_*lje 1

我将把它扔在那里,因为我很熟悉它 - Prosper.com 使他们的会员贷款列表可通过 XML 导出进行分析。导出将包含大约 50,000 个带有描述的贷款请求和超过 1,000,000 个会员资料(尽管其中许多是空的)。