使用JAVA中的Apache POI和iText从Word(DOC)创建PDF

Ism*_*met 6 java pdf-generation ms-word itext apache-poi

我试图从*.doc文档生成PDF文档.直到现在,由于stackoverflow,我已成功生成它但有一些问题.

我的下面的示例代码生成的pdf没有格式和图像,只有文本.该文档包括未包含在PDF中的空格和图像.

这是代码:

        in = new FileInputStream(sourceFile.getAbsolutePath());
        out = new FileOutputStream(outputFile);

        WordExtractor wd = new WordExtractor(in);

        String text = wd.getText();

        Document pdf= new Document(PageSize.A4);

        PdfWriter.getInstance(pdf, out);

        pdf.open();
        pdf.add(new Paragraph(text));
Run Code Online (Sandbox Code Playgroud)

Jas*_*ext 11

docx4j包含使用iText从docx创建PDF的代码.它还可以使用POI将doc转换为docx.

曾经有一段时间我们平等地支持这两种方法(以及通过XHTML的PDF),但我们决定专注于XSL-FO.

如果它是一个选项,你最好使用docx4j通过XSL-FO和FOP将docx转换为PDF.

像这样使用它:

        wordMLPackage = WordprocessingMLPackage.load(new java.io.File(inputfilepath));

        // Set up font mapper
        Mapper fontMapper = new IdentityPlusMapper();
        wordMLPackage.setFontMapper(fontMapper);

        // Example of mapping missing font Algerian to installed font Comic Sans MS
        PhysicalFont font 
                = PhysicalFonts.getPhysicalFonts().get("Comic Sans MS");
        fontMapper.getFontMappings().put("Algerian", font);             

        org.docx4j.convert.out.pdf.PdfConversion c 
            = new org.docx4j.convert.out.pdf.viaXSLFO.Conversion(wordMLPackage);
        //  = new org.docx4j.convert.out.pdf.viaIText.Conversion(wordMLPackage);

        OutputStream os = new java.io.FileOutputStream(inputfilepath + ".pdf");         
        c.output(os);
Run Code Online (Sandbox Code Playgroud)

2016年7月更新

从docx4j 3.3.0开始,Plutext的商业PDF渲染器是docx4j的docx到PDF转换的默认选项.您可以在converter-eval.plutext.com上尝试在线演示

如果要使用现有的docx到XSL-FO到PDF(或Apache FOP支持的其他目标)方法,那么只需将docx4j-export-FO jar添加到类路径中.

无论哪种方式,要将docx转换为PDF,您都可以使用Docx4J facade的toPDF方法.

通过iText代码的旧docx到PDF可以在https://github.com/plutext/docx4j-export-FO/.../docx4j-extras/PdfViaIText/找到


Gag*_*arr 2

WordExtractor 只抓取纯文本,没有其他内容。这就是为什么您看到的只是纯文本。

您需要做的是单独获取每个段落,然后抓取每次运行,获取格式,并生成 PDF 中的等效内容。

一种选择可能是找到一些将 XHTML 转换为 PDF 的代码。然后,使用 Apache Tika 将您的 Word 文档转换为 XHTML(它在幕后使用 POI,并为您处理所有格式设置),并从 XHTML 转换为 PDF。

否则,如果您要自己动手,请查看 Apache Tika 中用于解析 Word 文件的代码。这是一个很好的例子,展示了如何获取图像、格式、样式等。