用于解析实验的大量明文数据

7 plaintext dataset

我正在开发ruby中的解析器,它解析一些非均匀的文本数据.任何人都能告诉我,我可以在哪里获得大量明文数据吗?

mu *_*ort 5

你可以抓维基百科(或者只是运行一堆lynx -dump).这也会给你很多非英语文本的来源.古腾堡计划将成为大量纯文本的另一个好来源.

  • @kyle k没关系.他们有一个洪流:http://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project (2认同)