如何将HTML转换为文本保持换行符

Edu*_*rdo 6 html java

如何将HTML转换为文本保持换行符(由br,p,div等元素生成)可能使用NekoHTML或任何体面的HTML解析器

示例:
Hello<br/>World
to:

Hello\n  
World  
Run Code Online (Sandbox Code Playgroud)

jas*_*sop 8

这是我通过使用Jsoup迭代节点来输出文本(包括换行符)的函数.

public static String htmlToText(InputStream html) throws IOException {
    Document document = Jsoup.parse(html, null, "");
    Element body = document.body();

    return buildStringFromNode(body).toString();
}

private static StringBuffer buildStringFromNode(Node node) {
    StringBuffer buffer = new StringBuffer();

    if (node instanceof TextNode) {
        TextNode textNode = (TextNode) node;
        buffer.append(textNode.text().trim());
    }

    for (Node childNode : node.childNodes()) {
        buffer.append(buildStringFromNode(childNode));
    }

    if (node instanceof Element) {
        Element element = (Element) node;
        String tagName = element.tagName();
        if ("p".equals(tagName) || "br".equals(tagName)) {
            buffer.append("\n");
        }
    }

    return buffer;
}
Run Code Online (Sandbox Code Playgroud)


msw*_*msw 2

我确实在 html2txt 中找到了一个相对聪明的解决方案:THE ASCIINATOR,它在生成类似 nroff 的输出(例如man ls在终端上运行)方面做得非常出色。它生成StackOverflow 用作输入的Markdown样式的输出。

对于像本页这样的中等复杂的页面,输出有些分散,因为它极力尝试将非线性布局变成线性布局。不太复杂的标记的输出非常可读