uza*_*yed 3 java jsoup apache-tika
场景:我曾经从一个文件中Apache Tika获取.我需要解析这个以获取特定标签之间的文本(例如div或p标签).为此,我用来在标签之间获取文本.XHTMLDOCXXHTMLJsoup
问题:原来XHTML有这样的文字:
some text [tab-space][tab-space] other text.
Run Code Online (Sandbox Code Playgroud)
但是Jsoup我得到了这个:
some text other text.
Run Code Online (Sandbox Code Playgroud)
所以标签空间丢失但我需要得到文本,即包括tag-spaces.是否可以使用Jsoup或是否有其他Java库来执行此操作?
对TextNodes使用getWholeText方法:https://jsoup.org/apidocs/org/jsoup/nodes/TextNode.html#getWholeText--
final Document doc = Jsoup.parse(new File(".\\source.xhtml"), "UTF-8");
for (Element result : doc.select("div")) {
final String text = ((TextNode) result.childNode(0)).getWholeText();
System.out.println(text);
}
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
984 次 |
| 最近记录: |