杰汤。按顺序打印所有文本节点

Question

杰汤。按顺序打印所有文本节点

我想用 Jsoup 解析它（这是一个简化，我将解析整个网页）

<html><body><p>A<strong>B</strong>C<strong>D</strong>E</p></body></html>

Run Code Online (Sandbox Code Playgroud)

要按出现的顺序获取所有文本元素，请执行以下操作：

A B C D E

Run Code Online (Sandbox Code Playgroud)

我尝试了两种方法：

Elements elements = doc.children().select("*");
for (Element el : elements)
    System.out.println(el.ownText());

Run Code Online (Sandbox Code Playgroud)

返回：

A C E B D

Run Code Online (Sandbox Code Playgroud)

也就是说，“强”标签之间的元素位于末尾。

我还尝试过递归版本：

myfunction(doc.children());

private void myfunction(Elements elements) {
  for (Element el : elements){
    List<Node> nodos = el.childNodes();       
    for (Node nodo : nodos) {                
      if (nodo instanceof TextNode && !((TextNode) nodo).isBlank()) {
      System.out.println(((TextNode) nodo).text()); 
    }
  }
  myfunction(el.children());
}

Run Code Online (Sandbox Code Playgroud)

但结果还是和以前一样。

如何才能做到这一点？我觉得我正在把简单的事情变得困难......

Answer 1

Psh*_*emo 6

怎么样：

private static void myfunction(Node element) {
    for (Node n : element.childNodes()) {
        if (n instanceof TextNode && !((TextNode) n).isBlank()) {
            System.out.println(((TextNode) n).text());
        } else {
            myfunction(n);
        }
    }
}

Run Code Online (Sandbox Code Playgroud)

演示：

String html = "<html><body><p>A<strong>B</strong>C<strong>D</strong>E</p></body></html>";
Document doc = Jsoup.parse(html);
myfunction(doc.body());

Run Code Online (Sandbox Code Playgroud)

输出：

A
B
C
D
E

Run Code Online (Sandbox Code Playgroud)

Java 15 更新以避免强制转换(TextNode) n（有关更多详细信息，请参阅JEP 375：instanceof 的模式匹配（第二个预览版））

private static void myfunction(Node element) {
    for (Node n : element.childNodes()) {
        if (n instanceof TextNode tNode && !tNode.isBlank()) {
            System.out.println(tNode.text());
        } else {
            myfunction(n);
        }
    }
}

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，11 月前
查看次数：	2795 次
最近记录：	3 年，7 月前