让Jsoup支持JavaScript动态生成的html

Ogo*_*ofo 5 html javascript java htmlunit jsoup

现在我正在开发一个webcrawler.这个应该解析一些特定的站点,并给我一个输出到xml文件.到目前为止,这没问题.Crawler可以工作,您可以通过cfg文件快速自定义它.我使用Jsoup来解析HTML内容.

我刚刚添加了一些网站,并注意到我通过JavaScript创建的HTML内容存在巨大问题.难道没有办法让Jsoup支持Javascript吗?或者至少获取我在浏览器中可以看到的完整HTML内容.

我已经尝试过HtmlUnit,但是这个并不好.它没有给我我在浏览器中获得的内容.

诚恳,

Ogofo

Mos*_*cho 7

Jsoup不支持javascript,也不会模拟浏览器.如果您计划执行Javascript,请忘掉它.根据我的经验,HtmlUnit是一个无头浏览器,它给了我最好的结果(总是谈论Java框架).

在HtmlUnit中值得尝试的一件事是BrowserVersion在创建WebClient实例时更改(Chrome/InternetEplorer/FireFox).有些网站以不同的方式做出反应,有时只是改变这个价值可能会给你预期得到的结果.