Ogo*_*ofo 5 html javascript java htmlunit jsoup
现在我正在开发一个webcrawler.这个应该解析一些特定的站点,并给我一个输出到xml文件.到目前为止,这没问题.Crawler可以工作,您可以通过cfg文件快速自定义它.我使用Jsoup来解析HTML内容.
我刚刚添加了一些网站,并注意到我通过JavaScript创建的HTML内容存在巨大问题.难道没有办法让Jsoup支持Javascript吗?或者至少获取我在浏览器中可以看到的完整HTML内容.
我已经尝试过HtmlUnit,但是这个并不好.它没有给我我在浏览器中获得的内容.
诚恳,
Ogofo
Jsoup不支持javascript,也不会模拟浏览器.如果您计划执行Javascript,请忘掉它.根据我的经验,HtmlUnit是一个无头浏览器,它给了我最好的结果(总是谈论Java框架).
在HtmlUnit中值得尝试的一件事是BrowserVersion在创建WebClient实例时更改(Chrome/InternetEplorer/FireFox).有些网站以不同的方式做出反应,有时只是改变这个价值可能会给你预期得到的结果.
| 归档时间: |
|
| 查看次数: |
6181 次 |
| 最近记录: |