我只是想知道如何使用Tika从html中提取主文本和纯文本?
也许一种可能的解决方案是使用BoilerPipeContentHandler,但你有一些示例/演示代码来显示它吗?
首先十分感谢
html-parsing apache-tika boilerpipe
apache-tika ×1
boilerpipe ×1
html-parsing ×1