我使用 Tesseract 从扫描的 PDF 中提取文本。其中一些文件还包含图像。有没有办法得到这些图像?
我通过将它们转换为 tiff 文件来为 tesseract 准备我的扫描 pdf。但是我找不到任何命令行工具来从中提取图像,就像 pdfimages 对“文本”pdf 所做的那样。
任何可以帮助我完成工作的工具(或工具组合)的想法?
小智 4
您将无法对图像使用 Tesseract OCR,因为这不是它的设计目的。最好先使用工具提取图像,然后使用 Tesseract 获取文本。
您可能会使用 xPDF 的 PDFimages。
http://www.xpdfreader.com/pdfimages-man.html
您需要下载 R、Rstudio、xPDFreader 和 PDFtools 来完成此操作。确保您的程序文件能够在“环境变量”中找到(如果使用 Windows),以便 R 可以找到程序。
然后做类似的事情来转换它。有关 PDFimages 的帮助,请参阅文档中的选项。这就是语法(特别是在paste0之后)。注意选项的位置。它们必须位于文件输入名称之前:
#("PDF to PPM")
files <- tools::file_path_sans_ext(list.files(path = dest, pattern =
"pdf", full.names = TRUE))
lapply(files, function(i){
shell(shQuote(paste0("pdftoppm -f 1 -l 10 -r 300 ", i,".pdf", " ",i)))
})
Run Code Online (Sandbox Code Playgroud)
您也可以只使用 CMD 提示符并键入
pdftoppm -f 1 -l 10 -r 300 stuff.pdf stuff.ppm
Run Code Online (Sandbox Code Playgroud)