标签: websphinx

如何抓取整个维基百科？

我试过WebSphinx应用程序.

我意识到如果我把wikipedia.org作为起始URL,它将不会进一步爬行.

那么,如何实际爬行整个维基百科？任何人都可以给出一些指导方针吗？我是否需要专门去查找这些网址并放置多个起始网址？

任何人都有关于使用WebSphinx API的教程的好网站的建议？

java wikipedia web-crawler websphinx

7
推荐指数

1
解决办法

2万
查看次数

标签统计

java ×1

web-crawler ×1