19 pdf software-rec ocr
我有一本扫描书的PDF。
我正在寻找一个免费软件,该软件将执行 OCR,然后提供一个选项以将其再次保存为 PDF 或文档。
有吗?
您可以下载Adobe Acrobat Pro的 30 天试用版并使用“OCR 文本识别”功能(“文档 > OCR 文本识别 > 使用 OCR 识别文本...”)。在设置对话框中,选择“可搜索图像”作为输出样式。这将保留页面图像,但嵌入 OCR 文本,以便文档可搜索并允许选择、复制和粘贴文本。
运行 OCR 后,您需要确认或更正 OCR 不确定使用“查找 OCR 嫌疑人”功能的单词。
安装Imagemagick。打开 cmd 窗口或终端:
convert myfile.pdf myfile-%02d.jpg
Run Code Online (Sandbox Code Playgroud)
pdf 中的每一页的输出将为 1 个 jpg 文件、myfile-00.jpg、myfile-01.jpg 等。
通过 ocr 程序传递每个图像。我对此没有太多经验,但似乎有很多选择。
将每页文本转换回 pdf。您可以使用 imagemagick 再次执行此操作,但还有其他方法:
convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
37384 次 |
| 最近记录: |