Mr *_*ooL 7 java wikipedia web-crawler websphinx
我试过WebSphinx应用程序.
我意识到如果我把wikipedia.org作为起始URL,它将不会进一步爬行.
那么,如何实际爬行整个维基百科?任何人都可以给出一些指导方针吗?我是否需要专门去查找这些网址并放置多个起始网址?
任何人都有关于使用WebSphinx API的教程的好网站的建议?
And*_*rew 45
如果您的目标是抓取所有Wikipedia,您可能希望查看可用的数据库转储.见http://download.wikimedia.org/.
| 归档时间: |
|
| 查看次数: |
16271 次 |
| 最近记录: |