标签: jericho-html-parser

jTidy和TagSoup文档

我正在寻找TagSoup和jTidy库的文档(如果可能的话,正式文档).

我想利用这个库来操纵HTML"tagsoup"文件,其中包括与(HTML,XHTML或者HTML5)标签HTML之间的混合不同的命名空间XML标记.

我已经测试HTMLCleaner,NekoHTML和杰里科,但我不为jTidy和TagSoup找到文档,除了最简单的例子来清除文件.

我需要有关操纵内容,替换标签,提取信息等的文档......

谢谢

注意:测试所有选项后,我使用了StAX/Woodstox:

java tag-soup jtidy jericho-html-parser

6
推荐指数
1
解决办法
4440
查看次数

JAVA 的 JSP 和 HTML 解析器

我一直在使用 Jsoup 来解析我的 HTML 文件,到目前为止它做得很好。但是,它无法解析任何服务器标签( <% ... %> )。我决定扩展它,但我找不到一种简单的方法来扩展它的解析器和所有那些私有/包级别的类(即 TreeBuilder、TransitionState ...等)...

所以我开始研究Jericho,因为它声称它可以解析服务器标签 - 然而,它的文档太差了,我什至无法轻松入门。而且它的 API 似乎不像 Jsoup 提供的那么友好 - 提取一些节点并移动它并不是那么简单......

想问问大家以前有没有遇到过类似的情况,是怎么解决的?简而言之,我只想用Java解析JSP文件。(好吧..请不要让我自己实现一个;p)

java parsing jsp jsoup jericho-html-parser

5
推荐指数
1
解决办法
8510
查看次数

如何使用Jericho解析没有嵌套html元素的文本?

使用杰里科,我需要解析这样的事情:

<html>
<div class="title">
    Spoon bows
    <br/>
    <span>
        A Matrix scene.
        <br/>
        Matrix 1
    </span>
</div>
</html>
Run Code Online (Sandbox Code Playgroud)

我想解析"Spoon bows",但我<div>使用以下代码获取标记内的全部内容:

List<Element> list = item.getAllElementsByClass("title");
if(list!=null) {
    Element title = list.get(0);
    if(title!=null) {
        String text = title.getContent().getTextExtractor().toString();
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

html java parsing jericho-html-parser

1
推荐指数
1
解决办法
1405
查看次数

标签 统计

java ×3

jericho-html-parser ×3

parsing ×2

html ×1

jsoup ×1

jsp ×1

jtidy ×1

tag-soup ×1