使用JAVA中的Apache POI和iText从Word(DOC)创建PDF

Question

使用JAVA中的Apache POI和iText从Word(DOC)创建PDF

Ism*_*met 6 java pdf-generation ms-word itext apache-poi

我试图从*.doc文档生成PDF文档.直到现在,由于stackoverflow,我已成功生成它但有一些问题.

我的下面的示例代码生成的pdf没有格式和图像,只有文本.该文档包括未包含在PDF中的空格和图像.

这是代码:

        in = new FileInputStream(sourceFile.getAbsolutePath());
        out = new FileOutputStream(outputFile);

        WordExtractor wd = new WordExtractor(in);

        String text = wd.getText();

        Document pdf= new Document(PageSize.A4);

        PdfWriter.getInstance(pdf, out);

        pdf.open();
        pdf.add(new Paragraph(text));

Run Code Online (Sandbox Code Playgroud)

Answer 1

Jas*_*ext 11

docx4j包含使用iText从docx创建PDF的代码.它还可以使用POI将doc转换为docx.

曾经有一段时间我们平等地支持这两种方法(以及通过XHTML的PDF),但我们决定专注于XSL-FO.

如果它是一个选项,你最好使用docx4j通过XSL-FO和FOP将docx转换为PDF.

像这样使用它:

        wordMLPackage = WordprocessingMLPackage.load(new java.io.File(inputfilepath));

        // Set up font mapper
        Mapper fontMapper = new IdentityPlusMapper();
        wordMLPackage.setFontMapper(fontMapper);

        // Example of mapping missing font Algerian to installed font Comic Sans MS
        PhysicalFont font 
                = PhysicalFonts.getPhysicalFonts().get("Comic Sans MS");
        fontMapper.getFontMappings().put("Algerian", font);             

        org.docx4j.convert.out.pdf.PdfConversion c 
            = new org.docx4j.convert.out.pdf.viaXSLFO.Conversion(wordMLPackage);
        //  = new org.docx4j.convert.out.pdf.viaIText.Conversion(wordMLPackage);

        OutputStream os = new java.io.FileOutputStream(inputfilepath + ".pdf");         
        c.output(os);

Run Code Online (Sandbox Code Playgroud)

2016年7月更新

从docx4j 3.3.0开始,Plutext的商业PDF渲染器是docx4j的docx到PDF转换的默认选项.您可以在converter-eval.plutext.com上尝试在线演示

如果要使用现有的docx到XSL-FO到PDF(或Apache FOP支持的其他目标)方法,那么只需将docx4j-export-FO jar添加到类路径中.

无论哪种方式,要将docx转换为PDF,您都可以使用Docx4J facade的toPDF方法.

通过iText代码的旧docx到PDF可以在https://github.com/plutext/docx4j-export-FO/.../docx4j-extras/PdfViaIText/找到

Answer 2

Gag*_*arr 2

WordExtractor 只抓取纯文本，没有其他内容。这就是为什么您看到的只是纯文本。

您需要做的是单独获取每个段落，然后抓取每次运行，获取格式，并生成 PDF 中的等效内容。

一种选择可能是找到一些将 XHTML 转换为 PDF 的代码。然后，使用 Apache Tika 将您的 Word 文档转换为 XHTML（它在幕后使用 POI，并为您处理所有格式设置），并从 XHTML 转换为 PDF。

否则，如果您要自己动手，请查看 Apache Tika 中用于解析 Word 文件的代码。这是一个很好的例子，展示了如何获取图像、格式、样式等。

归档时间：	14 年，9 月前
查看次数：	31054 次
最近记录：	9 年，7 月前