相关疑难解决方法(0)

jsoup - 删除所有格式和链接标记,仅保留文本

假设我有一个像这样的html片段:

<p> <span> foo </span> <em> bar <a> foobar </a> baz </em> </p>
Run Code Online (Sandbox Code Playgroud)

我想从中提取的是:

foo bar foobar baz
Run Code Online (Sandbox Code Playgroud)

所以我的问题是:如何从html中删除所有包装标签,并获得与html中相同顺序的文本?正如您在标题中看到的,我想使用jsoup进行解析.

重音html的示例(注意'á'字符):

<p><strong>Tarthatatlan biztonsági viszonyok</strong></p>
<p><strong>Tarthatatlan biztonsági viszonyok</strong></p>
Run Code Online (Sandbox Code Playgroud)

我想要的是:

Tarthatatlan biztonsági viszonyok
Tarthatatlan biztonsági viszonyok
Run Code Online (Sandbox Code Playgroud)

这个html不是静态的,通常我只想要一个通用html片段的每个文本都以解码的人类可读形式,宽度换行符.

html java jsoup

39
推荐指数
3
解决办法
4万
查看次数

标签 统计

html ×1

java ×1

jsoup ×1