使用 Flying Saucer PDF 渲染将格式错误的 HTML 转换为 PDF

lea*_*iro 6 html java pdf flying-saucer pdf-rendering

在GitHub项目中,我尝试将任意 HTML 字符串转换为 PDF 版本。我所说的转换是指解析 HTML,并将其呈现为 PDF 文件。

为了实现这一点,我使用Flying Saucer PDF Rendering,如下所示:

主程序.java

public class Main {

    public static void main(String [] args) {
        final String ok = "<valid html here>: see github rep for real html markup here";
        final String html = "<invalid html here>: see github rep for real html markup here";
        try {
            // final byte[] bytes = generatePDFFrom(ok); // works!
            final byte[] bytes = generatePDFFrom(html); // does NOT work :(
            try(FileOutputStream fos = new FileOutputStream("sample-file.pdf")) {
                fos.write(bytes);
            }

        } catch (IOException | DocumentException e) {
            e.printStackTrace();
        }
    }

    private static byte[] generatePDFFrom(String html) throws IOException, DocumentException {
        final ITextRenderer renderer = new ITextRenderer();
        renderer.setDocumentFromString(html);
        renderer.layout();
        try (ByteArrayOutputStream fos = new ByteArrayOutputStream(html.length())) {
            renderer.createPDF(fos);
            return fos.toByteArray();
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

在上面的代码中,如果我使用存储在变量中的 html 字符串ok(这是一个“有效”html),它会正确创建 PDF(如果您使用该ok变量运行 GitHub 项目,它将sample-file.pdf在项目文件夹内创建一个文件,其中包含一些内容)渲染的 html)。

现在,如果我使用变量中的值html(带有无效标签的html,标签可能未正确关闭等),它会抛出以下错误(错误可能会根据不正确的值而有所不同):

ERROR:  'The markup in the document following the root element must be well-formed.'
Exception in thread "main" org.xhtmlrenderer.util.XRRuntimeException: Can't load the XML resource (using TrAX transformer). org.xml.sax.SAXParseException; lineNumber: 22; columnNumber: 9; The markup in the document following the root element must be well-formed.
    at org.xhtmlrenderer.resource.XMLResource$XMLResourceBuilder.transform(XMLResource.java:222)
    at org.xhtmlrenderer.resource.XMLResource$XMLResourceBuilder.createXMLResource(XMLResource.java:181)
    at org.xhtmlrenderer.resource.XMLResource.load(XMLResource.java:84)
    at org.xhtmlrenderer.pdf.ITextRenderer.setDocumentFromString(ITextRenderer.java:171)
    at org.xhtmlrenderer.pdf.ITextRenderer.setDocumentFromString(ITextRenderer.java:166)
    at Main.generatePDFFrom(Main.java:84)
    at Main.main(Main.java:72)
Caused by: javax.xml.transform.TransformerException: org.xml.sax.SAXParseException; lineNumber: 22; columnNumber: 9; The markup in the document following the root element must be well-formed.
    at com.sun.org.apache.xalan.internal.xsltc.trax.TransformerImpl.transform(TransformerImpl.java:740)
    at com.sun.org.apache.xalan.internal.xsltc.trax.TransformerImpl.transform(TransformerImpl.java:343)
    at org.xhtmlrenderer.resource.XMLResource$XMLResourceBuilder.transform(XMLResource.java:220)
    ... 6 more
Caused by: org.xml.sax.SAXParseException; lineNumber: 22; columnNumber: 9; The markup in the document following the root element must be well-formed.
    at com.sun.org.apache.xerces.internal.parsers.AbstractSAXParser.parse(AbstractSAXParser.java:1239)
    at com.sun.org.apache.xalan.internal.xsltc.trax.TransformerImpl.transformIdentity(TransformerImpl.java:659)
    at com.sun.org.apache.xalan.internal.xsltc.trax.TransformerImpl.transform(TransformerImpl.java:728)
    ... 8 more
Run Code Online (Sandbox Code Playgroud)

现在,据我了解,这是因为 html 字符串的“无效”部分。

重要笔记:

  • 分配给变量的值okhtml这里只是问题的占位符。真货就在这里
  • 在实际项目中,html字符串是来自用户的输入。是的,他/她必须知道在那里放什么,但是,当然,他/她可能会在 html 构造中犯一些错误,所以我必须处理这个问题。

问题)

  • 有什么方法可以“告诉” Flying Saucer PDF Rendering忽略/自动完成/清理自身/或任何其他那些“无效”部分,然后继续创建 PDF 文件(首选)
  • 我可以使用更好的方法来克服这个问题吗?

Kas*_*sun 5

由于我在使用 Flying Saucer 从 HTML 生成 PDF 时遇到了同样的问题,因此我使用 HtmlCleaner(请参阅maven 链接)来清理 HTML 代码,然后再解析到 Flying Saucer 库。

// Clean the html to use in the flying saucer converting tool
// get the element you want to serialize
HtmlCleaner cleaner = new HtmlCleaner();
TagNode rootTagNode = cleaner.clean(html);
// set up properties for the serializer (optional, see online docs)
CleanerProperties cleanerProperties = cleaner.getProperties();
// use the getAsString method on an XmlSerializer class
XmlSerializer xmlSerializer = new PrettyXmlSerializer(cleanerProperties);
String cleanedHtml = xmlSerializer.getAsString(rootTagNode);

// use the https://github.com/flyingsaucerproject/flyingsaucer to convert cleaned HTML to PDF
ITextRenderer renderer = new ITextRenderer();
renderer.setDocumentFromString(cleanedHtml);
// ....
Run Code Online (Sandbox Code Playgroud)