我正在寻找TagSoup和jTidy库的文档(如果可能的话,正式文档).
我想利用这个库来操纵HTML"tagsoup"文件,其中包括与(HTML,XHTML或者HTML5)标签HTML之间的混合不同的命名空间XML标记.
我已经测试HTMLCleaner,NekoHTML和杰里科,但我不为jTidy和TagSoup找到文档,除了最简单的例子来清除文件.
我需要有关操纵内容,替换标签,提取信息等的文档......
谢谢
注意:测试完所有选项后,我使用了StAX/Woodstox:
我一直在使用 Jsoup 来解析我的 HTML 文件,到目前为止它做得很好。但是,它无法解析任何服务器标签( <% ... %> )。我决定扩展它,但我找不到一种简单的方法来扩展它的解析器和所有那些私有/包级别的类(即 TreeBuilder、TransitionState ...等)...
所以我开始研究Jericho,因为它声称它可以解析服务器标签 - 然而,它的文档太差了,我什至无法轻松入门。而且它的 API 似乎不像 Jsoup 提供的那么友好 - 提取一些节点并移动它并不是那么简单......
想问问大家以前有没有遇到过类似的情况,是怎么解决的?简而言之,我只想用Java解析JSP文件。(好吧..请不要让我自己实现一个;p)
使用杰里科,我需要解析这样的事情:
<html>
<div class="title">
Spoon bows
<br/>
<span>
A Matrix scene.
<br/>
Matrix 1
</span>
</div>
</html>
Run Code Online (Sandbox Code Playgroud)
我想解析"Spoon bows",但我<div>使用以下代码获取标记内的全部内容:
List<Element> list = item.getAllElementsByClass("title");
if(list!=null) {
Element title = list.get(0);
if(title!=null) {
String text = title.getContent().getTextExtractor().toString();
}
}
}
Run Code Online (Sandbox Code Playgroud)