如何使用Java中的Apache Tika HTML解析器来提取所有HTML标记？

Question

如何使用Java中的Apache Tika HTML解析器来提取所有HTML标记？

lka*_*lay 7 html java apache apache-tika

我下载了tika-core和tika-parser库,但我找不到将HTML文档解析为字符串的示例代码.我必须摆脱网页源的所有html标签.我能做什么？如何使用Apache Tika进行编码？

Answer 1

你想要一个html文件的纯文本版本吗？如果是这样,您只需要:

        InputStream input = new FileInputStream("myfile.html");
        ContentHandler handler = new BodyContentHandler();
        Metadata metadata = new Metadata();
        new HtmlParser().parse(input, handler, metadata, new ParseContext());
        String plainText = handler.toString();

Run Code Online (Sandbox Code Playgroud)

BodyContentHandler在没有构造函数参数或字符限制的情况下创建时,将捕获html正文的文本(仅)并将其返回给您.

归档时间：	14 年，9 月前
查看次数：	18171 次
最近记录：	8 年，8 月前