用于HTML到文本转换的开源Java库

Dav*_*itz 20 html java

您能否推荐一个将HTML转换为文本的开源Java库(最好是ASL/BSD/LGPL许可证)- 清理所有标签,转换实体(&等)并正确处理<br>和表.

更多信息

我把HTML作为字符串,没有必要从网上获取它.另外,我正在寻找的是这样的方法:

String convertHtmlToPlainText(String html)
Run Code Online (Sandbox Code Playgroud)

Chr*_*s R 19

试试杰里科.

TextExtractor类听起来像它会做你想要什么.抱歉无法发布第二个链接,因为我是新用户,但稍微向下滚动主页,并且有一个链接.

  • 谢谢!我实际上最后使用了渲染器 (5认同)
  • 对于懒人:`String plainText = new Source(html).getRenderer().toString();` (2认同)