如何抓取整个维基百科？

Question

我试过WebSphinx应用程序.

我意识到如果我把wikipedia.org作为起始URL,它将不会进一步爬行.

那么,如何实际爬行整个维基百科？任何人都可以给出一些指导方针吗？我是否需要专门去查找这些网址并放置多个起始网址？

任何人都有关于使用WebSphinx API的教程的好网站的建议？

Answer 1

如果您的目标是抓取所有Wikipedia,您可能希望查看可用的数据库转储.见http://download.wikimedia.org/.

+1.通过HTTP抓取维基百科很粗鲁,并且会给服务器带来很多额外负担. (29认同)
@GregHewgill,这是一个很好的假设声明.这实际上取决于您抓取网站的速度,您是否尊重robots.txt指令以及您认为"大量额外负载"的含义.根据维基百科"友好,低速机器人欢迎查看文章页面,但请不要动态生成页面." - http://en.wikipedia.org/robots.txt爬虫通常不是为解析wikipedia特定的xml文档而设计的,因为为wikipedia.com创建一个单独的系统解析过时的xml转储似乎很愚蠢. (9认同)