用于抓取的无头Java HTTP客户端?

Jan*_*rts 4 javascript java web-testing web-crawler

我正在寻找一个用Java编写的爬行工具来检测我们网站中的无效网址.

难点在于,大部分URL都是使用javaScript,CSS3和Ajax完成的.所以只是获取网站的网址内容是行不通的.

理想的是无头工具,能够执行javaScript,CSS样式和AJAX调用,并吐出它所访问的各种URL.

我确实意识到这是一个很高的要求,但也许它存在于某个地方?

Dan*_*ply 7

我建议在http://htmlunit.sourceforge.net/上使用,这是为那些东西而制作的.