使用TagSoup将HTML页面转换为XHTML

Question

很抱歉,如果这太简单了,但我找不到教程,也没有找到TagSoup Java版本的文档.

基本上我想从互联网上下载HTML网页并将其转换为包含在字符串中的XHTML.我怎么能用TagSoup做到这一点？

谢谢!

Answer 1

像这样的东西:

wget -O - example.com/bad.html | java -jar tagsoup.jar

或者,来自Java:

解析HTML:

创建一个实例 org.ccil.cowan.tagsoup.Parser

提供您自己的SAX2 ContentHandler

提供InputSourceHTML引用

而且parse()!