使用JSoup删除HTML标记之间的文本

Rag*_*ghu 5 html text extract jsoup

在某些HTML清理的情况下,我想保留标签之间的文本(这是Jsoup的默认行为),在某些情况下,我想删除文本以及HTML标记.请问有人可以说明如何使用Jsoup删除HTML标签之间的文本?

Jon*_*ley 11

清洁剂会一直下降标签和保存文本.如果需要删除元素(即标记和文本/嵌套元素),可以预先解析HTML,使用remove()或删除元素empty(),然后通过清理器运行生成的结果.

例如:

String html = "Clean <div>Text dropped</div>";
Document doc = Jsoup.parse(html);
doc.select("div").remove();
// if not removed, the cleaner will drop the <div> but leave the inner text
String clean = Jsoup.clean(doc.body().html(), Whitelist.basic());
Run Code Online (Sandbox Code Playgroud)