使用TagSoup将HTML页面转换为XHTML

kon*_*onr 4 java xhtml parsing

很抱歉,如果这太简单了,但我找不到教程,也没有找到TagSoup Java版本的文档.

基本上我想从互联网上下载HTML网页并将其转换为包含在字符串中的XHTML.我怎么能用TagSoup做到这一点?

谢谢!

Pas*_*ent 8

像这样的东西:

wget -O - example.com/bad.html | java -jar tagsoup.jar
Run Code Online (Sandbox Code Playgroud)

或者,来自Java:

解析HTML:

  • 创建一个实例 org.ccil.cowan.tagsoup.Parser
  • 提供您自己的SAX2 ContentHandler
  • 提供InputSourceHTML引用
  • 而且parse()!