jsoup只剥离html标签而不是新行字符？

Question

jsoup只剥离html标签而不是新行字符？

我在Java中有以下内容,我想只删除html标签而不是新行字符

<p>test1 <b>test2</b> test 3 </p> //line 1
<p>test4 </p> //line 2

Run Code Online (Sandbox Code Playgroud)

如果我在文本丰富的编辑器中打开上面的内容,则第1行和第2行显示在不同的行中(不显示</p>标记).但是在记事本中,内容与</p>标记一起显示.删除我使用的所有html标签

Jsoup.parse(aboveContent).text()

Run Code Online (Sandbox Code Playgroud)

它删除所有html字符.但它在记事本中显示了同一行中的所有第1行和第2行.不知何故,Jsoup还删除了换行符.

我尝试了什么: -

我也试过替换</p>,\r\n然后删除html标签

 Jsoup.parse(contentWith\r\n-Insteadof-</p>Tag ).text()

Run Code Online (Sandbox Code Playgroud)

但仍然Jsoup删除行尾字符(如在调试器中我可以看到line1和line2)在同一行.

我怎么能让Jsoup只剥离html字符而不是新行字符？

Answer 1

tra*_*ian 13

你也可以这样做:

public static String cleanNoMarkup(String input) {
    final Document.OutputSettings outputSettings = new Document.OutputSettings().prettyPrint(false);
    String output = Jsoup.clean(input, "", Whitelist.none(), outputSettings);
    return output;

}

Run Code Online (Sandbox Code Playgroud)

这里重要的事情是:1.Whitelist.none() - 所以不允许标记2..prettyPrint(false) - 所以不删除换行符

归档时间：	13 年前
查看次数：	6816 次
最近记录：	9 年，6 月前