从大量数据生成大PDF

dma*_*a_k 4 java pdf-generation itext flying-saucer

我从数据库中读取数据,从中生成HTML DOM.数据量巨大,因此它不能同时适应内存,但它可以逐块提供.

我想使用Flying Saucer将生成的HTML转换为PDF :

import org.xhtmlrenderer.pdf.ITextRenderer;
import org.dom4j.DocumentFactory;
import org.dom4j.Element;
import org.dom4j.io.DOMWriter;

OutputStream bodyStream = outputMessage.getBody();

ITextRenderer renderer = new ITextRenderer();

DocumentFactory documentFactory = DocumentFactory.getInstance();
DOMWriter domWriter = new DOMWriter();

Element htmlNode = documentFactory.createElement("html");
Document htmlDocument = documentFactory.createDocument(htmlNode);

int currentLine = 1;
int currentPage = 1;

try {
    while (currentLine <= numberOfLines) {
        currentLine += loadDataToDOM(documentFactory, htmlNode, currentLine, CHUNK_SIZE);

        renderer.setDocument(domWriter.write(htmlDocument), null);
        renderer.layout();

        if (currentPage == 1) {
            // For the first page the PDF writer is created:
            renderer.createPDF(bodyStream, false);
        }
        else {
            // Other documents are appended to current PDF writer:
            renderer.writeNextDocument(currentPage);
        }

        currentPage += renderer.getRootBox().getLayer().getPages().size();
    }

    // Finalise the PDF:
    renderer.finishPDF();
}
catch (DocumentException e) {
    throw new IOException(e);
}
catch (org.dom4j.DocumentException e) {
    throw new IOException(e);
}
finally {
    IOUtils.closeQuietly(bodyStream);
}
Run Code Online (Sandbox Code Playgroud)

这种方法的问题在于块的最后一页不一定完全填充数据.有没有解决方案填补这个空间?例如,我可以考虑一种方法,它将检查最后一页是否未完全归档,然后丢弃它(不写入PDF),还可以找出在该页面上呈现的数据并在数据库中回放位置(currentLine例如).如果可以发布一个完整的解决方案会很好.

Bru*_*gie 6

正如我在评论中已经提到的那样,通过先创建HTML然后将HTML转换为PDF,您可以通过从数据源创建PDF来浪费内存和处理时间.你还引入了许多不必要的复杂性.

在您的评论中,您提到了低级功能,例如moveTo()lineTo().使用绘制每一行和单个单词的低级操作来绘制表格确实是疯狂的.

你应该使用这个PdfPTable班级.这个ArrayToTable例子是一个非常简单的POC,数据以a的形式出现List<List<String>>.代码就像这样简单:

PdfPTable table = new PdfPTable(8);
table.setWidthPercentage(100);
List<List<String>> dataset = getData();
for (List<String> record : dataset) {
    for (String field : record) {
        table.addCell(field);
    }
}
document.add(table);
Run Code Online (Sandbox Code Playgroud)

当然:你在谈论一个巨大的数据集,在这种情况下,你可能不想先建立table内存,然后在将表添加到文档时刷新内存.在构建表时,您需要添加表的一小部分.这就是MemoryTests示例中发生的情况.添加此行:

table.setComplete(false);
Run Code Online (Sandbox Code Playgroud)

您可以一点一点地添加表格(在示例中:每10行).当您完成向表格添加单元格后,您应该这样做:

table.setComplete(true);
document.add(table);
Run Code Online (Sandbox Code Playgroud)

这将添加最后一行.

如果您想要一个包含重复页眉和/或页脚的表,请查看此PDF中的表:header_footer_1.pdf

这些HeaderFooter1HeaderFooter2示例将向您展示它是如何完成的.