我希望在我写的程序中做一些文本分析.我正在寻找原始形式的替代文本来源,类似于Wikipedia转储(download.wikimedia.com)中提供的内容.
我宁愿不必经历抓取网站的麻烦,试图解析HTML,提取文本等.
parsing text nlp wikipedia
nlp ×1
parsing ×1
text ×1
wikipedia ×1