小编dmi*_*tri的帖子

如何通过 PDFBOX、XPDF 检查 PDF 页面是否为图像(扫描)

提取图像的 PDFBox 问题。嗨,我如何检查 pdf 页面是否为图像并通过 PDFBOX 库提取该图像,有一种获取图像的方法,但如果 PDF 页面是图像,则无法获取。有人可以帮我解决这个问题吗?

提取图像的 Xpdf 问题。我尝试通过另一个库 xpdf 提取图像,如果它是图像,它会在页面上进行奇怪的翻转。如果 pdf 包含一个小图像作为对象图像,它给我确定,如果页面被扫描,他我们正在翻转。

我想从 PDF 中提取所有图像,如果扫描 PAGE 以获取它们作为图像,如果页面包含纯文本和图像也可以从此页面获取图像。

我的观点是从 PDF 中提取所有图像。不仅形成一个页面,而且即使页面是一个图像,也可以将它们提取为图像,但不要跳过它们,我认为 PDFbox 怎么样。

XPDF 正在做一些事情,但是当他导出扫描页面时,页面上出现了 FLIP(顶部,右侧)问题

我该如何解决这个问题谢谢。

下载文件示例以进行测试

    `PDDocument document = PDDocument.load(new File("/home/dru/IdeaProjects2/PDFExtractor/test/t1.pdf"));
    PDPageTree list = document.getPages();

    for (PDPage page : list) {
        PDResources pdResources = page.getResources();
        System.out.println(pdResources.getResourceCache());

        for (COSName c : pdResources.getXObjectNames()) {
            PDXObject o = pdResources.getXObject(c);

            if (o instanceof org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject) {
                File file = new File("/home/dru/IdeaProjects2/PDFExtractor/test/out/" + System.nanoTime() + ".png");
                ImageIO.write(((org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject)o).getImage(), "png", file);
            }
        } …
Run Code Online (Sandbox Code Playgroud)

xpdf pdfbox

1
推荐指数
1
解决办法
3084
查看次数

标签 统计

pdfbox ×1

xpdf ×1