我正在尝试使用此代码完全从HTML元素中清除我的文本:
Jsoup.clean(preparedText, Whitelist.none())
Run Code Online (Sandbox Code Playgroud)
不幸的是,它没有删除 元素.我认为它将用空格替换它,就像·用中间点("·")替换它一样.
我应该使用其他方法来实现此功能吗?
来自Jsoup 文档:
\n\n\n\n\n白名单定义允许哪些 HTML(元素和属性)通过清理器。其他一切都被删除。
\n
所以白名单只关心标签和属性。 既不是标签也不是属性。它只是特殊字符的 html 编码。如果您想从编码转换为普通文本,您可以使用例如优秀的apache commons lang 库或使用Jsoup unescapeEntities 方法:
System.out.println(Parser.unescapeEntities(doc.toString(), false));\nRun Code Online (Sandbox Code Playgroud)\n\n附录:
\n\n·当您解析 html 时,已经发生了从“\xc2\xb7”的转换。这似乎与 clean 方法无关。
| 归档时间: |
|
| 查看次数: |
1771 次 |
| 最近记录: |