我在哪里可以找到在网络上转储原始文本?

Jas*_*son 5 parsing text nlp wikipedia

我希望在我写的程序中做一些文本分析.我正在寻找原始形式的替代文本来源,类似于Wikipedia转储(download.wikimedia.com)中提供的内容.

我宁愿不必经历抓取网站的麻烦,试图解析HTML,提取文本等.

Blo*_*ard 7

你在寻找什么样的文字?

Project Gutenberg提供许多.txt格式的免费电子书(小说和非小说).

他们还有大量DVD图像,可供下载.