标签: jericho-html-parser

jTidy和TagSoup文档

我正在寻找TagSoup和jTidy库的文档(如果可能的话,正式文档).

我想利用这个库来操纵HTML"tagsoup"文件,其中包括与(HTML,XHTML或者HTML5)标签HTML之间的混合不同的命名空间XML标记.

我已经测试HTMLCleaner,NekoHTML和杰里科,但我不为jTidy和TagSoup找到文档,除了最简单的例子来清除文件.

我需要有关操纵内容,替换标签,提取信息等的文档......

谢谢

注意:测试完所有选项后,我使用了StAX/Woodstox:

java tag-soup jtidy jericho-html-parser

ang*_*era

2015 09-28

6
推荐指数

1
解决办法

4440
查看次数

JAVA 的 JSP 和 HTML 解析器

我一直在使用 Jsoup 来解析我的 HTML 文件，到目前为止它做得很好。但是，它无法解析任何服务器标签（ <% ... %> ）。我决定扩展它，但我找不到一种简单的方法来扩展它的解析器和所有那些私有/包级别的类（即 TreeBuilder、TransitionState ...等）...

所以我开始研究Jericho，因为它声称它可以解析服务器标签 - 然而，它的文档太差了，我什至无法轻松入门。而且它的 API 似乎不像 Jsoup 提供的那么友好 - 提取一些节点并移动它并不是那么简单......

想问问大家以前有没有遇到过类似的情况，是怎么解决的？简而言之，我只想用Java解析JSP文件。（好吧..请不要让我自己实现一个；p）

java parsing jsp jsoup jericho-html-parser

Kar*_*eng

lucky-day

5
推荐指数

1
解决办法

8510
查看次数

如何使用Jericho解析没有嵌套html元素的文本？

使用杰里科,我需要解析这样的事情:

<html>
<div class="title">
    Spoon bows
    <br/>
    <span>
        A Matrix scene.
        <br/>
        Matrix 1
    </span>
</div>
</html>

Run Code Online (Sandbox Code Playgroud)

我想解析"Spoon bows",但我<div>使用以下代码获取标记内的全部内容:

List<Element> list = item.getAllElementsByClass("title");
if(list!=null) {
    Element title = list.get(0);
    if(title!=null) {
        String text = title.getContent().getTextExtractor().toString();
        }
    }
}

Run Code Online (Sandbox Code Playgroud)

html java parsing jericho-html-parser

And*_*luZ

2012 10-25

1
推荐指数

1
解决办法

1405
查看次数

标签统计

java ×3

jericho-html-parser ×3

parsing ×2

html ×1

jsoup ×1

jsp ×1

jtidy ×1

tag-soup ×1

jTidy和TagSoup文档

JAVA 的 JSP 和 HTML 解析器

如何使用Jericho解析没有嵌套html元素的文本？

标签 统计

标签统计