JSoup使用未关闭的标记解析无效的HTML

Jav*_*nas 9 java web-crawler html-parsing jsoup

使用JSoup包含最后一个版本1.7.2,有一个错误解析带有未关闭标记的无效 HTML .

例:

String tmp = "<a href='www.google.com'>Link<p>Error link</a>";
Jsoup.parse(tmp);
Run Code Online (Sandbox Code Playgroud)

生成的文档是:

<html>
 <head></head>
 <body>
  <a href="www.google.com">Link</a>
  <p><a>Error link</a></p>
 </body>
</html>
Run Code Online (Sandbox Code Playgroud)

浏览器会生成以下内容:

<html>
 <head></head>
 <body>
  <a href="www.google.com">Link</a>
  <p><a href="www.google.com">Error link</a></p>
 </body>
</html>
Run Code Online (Sandbox Code Playgroud)

Jsoup应该作为浏览器或源代码.

有什么解决方案吗?查看API我没有找到任何东西.

Jon*_*ley 6

正确的行为是在解析此无效HTML时充当其他浏览器.感谢您提交此错误.我已经修复了阻止采用代理商在新节点中保留原始属性的问题.它将在1.7.3中提供,或者您现在可以从头开始构建.