如何从扫描的pdf中提取图像

Question

如何从扫描的pdf中提取图像

Plo*_*ouf 5 pdf image

我使用 Tesseract 从扫描的 PDF 中提取文本。其中一些文件还包含图像。有没有办法得到这些图像？

我通过将它们转换为 tiff 文件来为 tesseract 准备我的扫描 pdf。但是我找不到任何命令行工具来从中提取图像，就像 pdfimages 对“文本”pdf 所做的那样。

任何可以帮助我完成工作的工具（或工具组合）的想法？

Answer 1

小智 4

您将无法对图像使用 Tesseract OCR，因为这不是它的设计目的。最好先使用工具提取图像，然后使用 Tesseract 获取文本。

您可能会使用 xPDF 的 PDFimages。

http://www.xpdfreader.com/pdfimages-man.html

您需要下载 R、Rstudio、xPDFreader 和 PDFtools 来完成此操作。确保您的程序文件能够在“环境变量”中找到（如果使用 Windows），以便 R 可以找到程序。

然后做类似的事情来转换它。有关 PDFimages 的帮助，请参阅文档中的选项。这就是语法（特别是在paste0之后）。注意选项的位置。它们必须位于文件输入名称之前：

  #("PDF to PPM")      
      files <- tools::file_path_sans_ext(list.files(path = dest, pattern = 
 "pdf", full.names = TRUE))
    lapply(files, function(i){
      shell(shQuote(paste0("pdftoppm -f 1 -l 10 -r 300 ", i,".pdf", " ",i)))
      })

Run Code Online (Sandbox Code Playgroud)

您也可以只使用 CMD 提示符并键入

pdftoppm -f 1 -l 10 -r 300 stuff.pdf stuff.ppm

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，11 月前
查看次数：	2511 次
最近记录：	5 年前