Chr*_*eld 7 mysql database core-data corpus dataset
我正在寻找一个文本语料库来运行一些试验全文风格的数据搜索.我可以下载的东西,或者生成它的系统.更随机的东西会更好,例如1,000,000维基百科文章,格式易于插入2列数据库(id,text).
任何想法或建议?
Pet*_*ans 5
古腾堡计划有 32000 本书可用。
编辑: 截至目前(16 年 6 月 17 日),有 52,284 本免费电子书以UTF-8 格式的纯文本文件下载,涉及各种主题(从科学到宗教)。还有 EPUB、Kindle 或 html 格式。在这里查看古腾堡计划
Eri*_*lje 1
我将把它扔在那里,因为我很熟悉它 - Prosper.com 使他们的会员贷款列表可通过 XML 导出进行分析。导出将包含大约 50,000 个带有描述的贷款请求和超过 1,000,000 个会员资料(尽管其中许多是空的)。
归档时间:
15 年,4 月 前
查看次数:
5777 次
最近记录:
9 年,4 月 前