kon*_*onr 4 java xhtml parsing
很抱歉,如果这太简单了,但我找不到教程,也没有找到TagSoup Java版本的文档.
基本上我想从互联网上下载HTML网页并将其转换为包含在字符串中的XHTML.我怎么能用TagSoup做到这一点?
谢谢!
像这样的东西:
wget -O - example.com/bad.html | java -jar tagsoup.jar
Run Code Online (Sandbox Code Playgroud)
或者,来自Java:
解析HTML:
- 创建一个实例
org.ccil.cowan.tagsoup.Parser- 提供您自己的SAX2 ContentHandler
- 提供
InputSourceHTML引用- 而且
parse()!
| 归档时间: |
|
| 查看次数: |
3507 次 |
| 最近记录: |