标签: websphinx

如何抓取整个维基百科?

我试过WebSphinx应用程序.

我意识到如果我把wikipedia.org作为起始URL,它将不会进一步爬行.

那么,如何实际爬行整个维基百科?任何人都可以给出一些指导方针吗?我是否需要专门去查找这些网址并放置多个起始网址?

任何人都有关于使用WebSphinx API的教程的好网站的建议?

java wikipedia web-crawler websphinx

7
推荐指数
1
解决办法
2万
查看次数

标签 统计

java ×1

web-crawler ×1

websphinx ×1

wikipedia ×1