JSoup-按标签获取标签之间的文本

Question

JSoup-按标签获取标签之间的文本

场景:我曾经从一个文件中Apache Tika获取.我需要解析这个以获取特定标签之间的文本(例如div或p标签).为此,我用来在标签之间获取文本.XHTMLDOCXXHTMLJsoup

问题:原来XHTML有这样的文字:

some text [tab-space][tab-space] other text.

Run Code Online (Sandbox Code Playgroud)

但是Jsoup我得到了这个:

some text other text.

Run Code Online (Sandbox Code Playgroud)

所以标签空间丢失但我需要得到文本,即包括tag-spaces.是否可以使用Jsoup或是否有其他Java库来执行此操作？

Answer 1

Fre*_*ein 5

对TextNodes使用getWholeText方法:https://jsoup.org/apidocs/org/jsoup/nodes/TextNode.html#getWholeText--

final Document doc = Jsoup.parse(new File(".\\source.xhtml"), "UTF-8");

for (Element result : doc.select("div")) {
    final String text = ((TextNode) result.childNode(0)).getWholeText();
    System.out.println(text);
}

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，8 月前
查看次数：	984 次
最近记录：	9 年，8 月前