PDF:如何覆盖/修复扫描图像+ OCR文件中的可搜索文本？

Question

PDF:如何覆盖/修复扫描图像+ OCR文件中的可搜索文本？

我正在尝试在PDF文件上创建一个索引,我将其作为旧原始手稿中的图像进行扫描,然后在Adobe Acrobat Pro中进行字符识别.问题是有些词语间隔很滑,所以OCR最终会出现漏洞.我使用了查找和修复嫌疑人工具,但仍然存在问题.

举个例子......

文本" FOR EXAMPLE "在原始文档(当然是其图像)中间隔得很有趣,因此Adobe将其作为三个单词" FOR EX AMPLE " 读取,然后导致单词" ample " 的索引条目看起来完全有效如果我不知道更好.这是我到目前为止所识别的文档中的几个类似问题之一(还有更多要校对的页面).

如何修复底层OCR文本,使其在创建的索引和搜索文档时都包含正确的信息.

PS:我不能只是切换到文档的纯OCR文本版本,因为稿件是技术性的,并且有大量与文本相关的图纸.我需要保留图像并更改下面的"隐藏"可搜索文本.

Answer 1

cxw*_*cxw 0

我发现这个答案建议使用ABBYY FineReader 14（商业；我不隶属）。看起来它将处理编辑，之后我认为您现有的工作流程将处理索引。这是另一个答案，提供了更多工作流程细节（尽管是三年前）。

另外，这个问题有建议 Perl 的CAM::PDF和pdftk的答案。

归档时间：	7 年，10 月前
查看次数：	302 次
最近记录：	7 年，10 月前