我只想要页面的文本内容,我希望获取尽可能轻量级.我可以关闭HTMLUnit开箱即用的JavaScript,CSS和其他外部内容的所有解析和附加加载吗?
我认为最接近你要找的是:
WebClient webClient = new WebClient();
webClient.setCssEnabled(false);
webClient.setAppletEnabled(false);
webClient.setJavaScriptEnabled(false);
Run Code Online (Sandbox Code Playgroud)
对于HtmlUnit 2.13及更高版本,请使用webclient.getOptions().
此问题和答案也可能有用.这对我来说真的让事情变得更快,但我不得不重新编译HtmlUnit ......
最后,为了获取页面的原始内容(而不是输出asXml()),请尝试以下操作:
WebClient webClient = new WebClient();
HtmlPage page = webClient.getPage("http://www.yourpage.com");
String originalHtml = page.getWebResponse().getContentAsString();
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
5181 次 |
| 最近记录: |