使用 C# 搜索 OCR（可搜索）PDF

Question

我需要从已使用 OCR 程序转换的 PDF 中提取文本。我是否使用普通的 PDFReader 来获取文本，或者 OCR 转换后的 PDF 是否需要特殊处理？

Answer 1

这取决于它是如何转变的。许多 OCR 应用程序以某种方式将文本置于图像下方。有些人通过先放置文本然后将图像放置在顶部来实现此目的。有些使用“不标记”传输模式将图像放在底部，然后将文本放在顶部。

我提到这一点是因为我无法预测任何特定的文本提取工具将如何响应透明文本。理论上，它应该只为您提供文本（这就是 Acrobat 所做的）。所有文本提取工具是否都会发生这种情况，谁也说不准。