我试过WebSphinx应用程序.
我意识到如果我把wikipedia.org作为起始URL,它将不会进一步爬行.
那么,如何实际爬行整个维基百科?任何人都可以给出一些指导方针吗?我是否需要专门去查找这些网址并放置多个起始网址?
任何人都有关于使用WebSphinx API的教程的好网站的建议?
java wikipedia web-crawler websphinx
java ×1
web-crawler ×1
websphinx ×1
wikipedia ×1