HtmlUnit查看源代码

Jak*_*key 12 java htmlunit

HtmlUnit for Java很棒,但我无法弄清楚如何查看完整的源代码或将网站的源代码作为字符串返回.谁能帮我这个?

我知道以下将阅读该网站,但现在我只想将源返回到一个字符串.

HtmlPage mySite = webClient.getPage("http://mysite.com");
Run Code Online (Sandbox Code Playgroud)

谢谢!

Jer*_*emy 17

从查看API,我的想法是:

mySite.getWebResponse().getContentAsString();
Run Code Online (Sandbox Code Playgroud)

  • 这就是`asXml()`方法在HtmlPage上的作用.这可能是"已接受"的答案,但这不是HtmlUnit打算获取该信息的方式. (2认同)

Jes*_*ebb 14

String pageSource = myPage.asXml();
Run Code Online (Sandbox Code Playgroud)

这将为您提供网页的完整HTML源代码.

String pageText = myPage.asText();
Run Code Online (Sandbox Code Playgroud)

这将获得页面上的所有可见文本,包括换行符/空格.如果您在浏览器中的页面上Ctrl+A然后Ctrl+V进入变量,那将是相同的.