是否存在 OCR 无法识别的字体？

Question

我正在尝试编写一个只能由人类阅读的文档。无法复制文档内容。为此，我将其页面转换为图片并将它们添加回 PDF 文件。主要问题是任何 OCR 程序都可以取回整个书面文本，尤其是页面将变得清晰（与扫描的书相反），这将提高 OCR 的准确性。

那么，是否存在 OCR 无法识别的字体。否则，是否有一种技术可以使我的文档只能被人类读取，而不能被 OCR 识别？（例如，添加特定背景等...）

先感谢您。

Answer 1

一般来说，OCR 不是通过识别“字体”来识别文本，而是通过分析字符的特征和形状来识别文本，这意味着它在图形开放区域、不同文本的形状和文件中的字母中寻找相似之处。扫描转换。（这就是为什么它也可以识别没有使用任何字体的手写文档）。

这种通过特征识别文本的过程被称为 Intelligent Character Recognition

我不认为你的问题可以有一定的答案，即使用哪种字体使其无法被 OCR 读取，但只是为了让一般的 OCR 更难尝试使用一些像这样的书法字体不遵循一般字符特征，因此计算机软件难以阅读（这也是 CAPTCHA 背后的主要思想）。

但这同样可能会给一般的 OCR 带来困难，但它仍然不是 100% 成功的解决方案，而且它也会让任何人都很难阅读。