从XML中提取的文本中剥离标签

y2p*_*y2p 4 java xml-parsing

我正在解析XML文档.我想getTextContent()从我想要的特定部分获取文本.我得到的文字有标签

<italic> </italic>
<sub> </sub>
Run Code Online (Sandbox Code Playgroud)

..还有一些.我想剥离这些标签并保留文本,而不管标签是什么.

我的文档看起来像这样

<article>
   <sec>Section 1</sec>  
   <sec>Section 2
      <title>Title1</title>
      <sec>
         <title>Subtitle1</title>
         <p>........<italic> </italic>...</p>
      </sec>
      <sec>
         <title>Subtitle2</title>
         <p>........<sub> </sub>...</p>
      </sec>
   </sec>
</article>
Run Code Online (Sandbox Code Playgroud)

我需要所有文本<p>...</p>而没有标签.我该怎么办呢?我正在考虑识别所有标签并将其替换为"".但必须有更好的方法.

谢谢

Kev*_*n D 5

你可以将这个reg ex应用于getTextContent()的结果

String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");
Run Code Online (Sandbox Code Playgroud)