Jav*_*nas 9 java web-crawler html-parsing jsoup
使用JSoup包含最后一个版本1.7.2,有一个错误解析带有未关闭标记的无效 HTML .
例:
String tmp = "<a href='www.google.com'>Link<p>Error link</a>";
Jsoup.parse(tmp);
Run Code Online (Sandbox Code Playgroud)
生成的文档是:
<html>
<head></head>
<body>
<a href="www.google.com">Link</a>
<p><a>Error link</a></p>
</body>
</html>
Run Code Online (Sandbox Code Playgroud)
浏览器会生成以下内容:
<html>
<head></head>
<body>
<a href="www.google.com">Link</a>
<p><a href="www.google.com">Error link</a></p>
</body>
</html>
Run Code Online (Sandbox Code Playgroud)
Jsoup应该作为浏览器或源代码.
有什么解决方案吗?查看API我没有找到任何东西.