如何将扫描的图像作为 PDF 转换为可搜索的 PDF 文件?

19 pdf software-rec ocr

我有一本扫描书的PDF。

我正在寻找一个免费软件,该软件将执行 OCR,然后提供一个选项以将其再次保存为 PDF 或文档。

有吗?

pel*_*lms 5

您可以下载Adobe Acrobat Pro的 30 天试用并使用“OCR 文本识别”功能(“文档 > OCR 文本识别 > 使用 OCR 识别文本...”)。在设置对话框中,选择“可搜索图像”作为输出样式。这将保留页面图像,但嵌入 OCR 文本,以便文档可搜索并允许选择、复制和粘贴文本。

运行 OCR 后,您需要确认或更正 OCR 不确定使用“查找 OCR 嫌疑人”功能的单词。


Dav*_*llo 0

安装Imagemagick。打开 cmd 窗口或终端:

convert myfile.pdf myfile-%02d.jpg
Run Code Online (Sandbox Code Playgroud)

pdf 中的每一页的输出将为 1 个 jpg 文件、myfile-00.jpg、myfile-01.jpg 等。

通过 ocr 程序传递每个图像。我对此没有太多经验,但似乎有很多选择。

将每页文本转换回 pdf。您可以使用 imagemagick 再次执行此操作,但还有其他方法:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
Run Code Online (Sandbox Code Playgroud)