Jsoup清洁方法离开  分子

Ziv*_*tch 7 html java jsoup

我正在尝试使用此代码完全从HTML元素中清除我的文本:

Jsoup.clean(preparedText, Whitelist.none())
Run Code Online (Sandbox Code Playgroud)

不幸的是,它没有删除 元素.我认为它将用空格替换它,就像·用中间点("·")替换它一样.

我应该使用其他方法来实现此功能吗?

luk*_*sch 5

来自Jsoup 文档

\n\n
\n

白名单定义允许哪些 HTML(元素和属性)通过清理器。其他一切都被删除。

\n
\n\n

所以白名单只关心标签和属性。 既不是标签也不是属性。它只是特殊字符的 html 编码。如果您想从编码转换为普通文本,您可以使用例如优秀的apache commons lang 库或使用Jsoup unescapeEntities 方法

\n\n
System.out.println(Parser.unescapeEntities(doc.toString(), false));\n
Run Code Online (Sandbox Code Playgroud)\n\n

附录:

\n\n

·当您解析 html 时,已经发生了从“\xc2\xb7”的转换。这似乎与 clean 方法无关。

\n