您能否推荐一个将HTML转换为纯文本的开源Java库(最好是ASL/BSD/LGPL许可证)- 清理所有标签,转换实体(&等)并正确处理<br>和表.
更多信息
我把HTML作为字符串,没有必要从网上获取它.另外,我正在寻找的是这样的方法:
String convertHtmlToPlainText(String html)
Run Code Online (Sandbox Code Playgroud)
Chr*_*s R 19
试试杰里科.
该TextExtractor类听起来像它会做你想要什么.抱歉无法发布第二个链接,因为我是新用户,但稍微向下滚动主页,并且有一个链接.