是否存在 OCR 无法识别的字体?

use*_*564 4 ocr

我正在尝试编写一个只能由人类阅读的文档。无法复制文档内容。为此,我将其页面转换为图片并将它们添加回 PDF 文件。主要问题是任何 OCR 程序都可以取回整个书面文本,尤其是页面将变得清晰(与扫描的书相反),这将提高 OCR 的准确性。

那么,是否存在 OCR 无法识别的字体。否则,是否有一种技术可以使我的文档只能被人类读取,而不能被 OCR 识别?(例如,添加特定背景等...)

先感谢您。

Saj*_*hmi 5

一般来说,OCR 不是通过识别“字体”来识别文本,而是通过分析字符的特征和形状来识别文本,这意味着它在图形开放区域、不同文本的形状和文件中的字母中寻找相似之处。扫描转换。(这就是为什么它也可以识别没有使用任何字体的手写文档)

这种通过特征识别文本的过程被称为 Intelligent Character Recognition

我不认为你的问题可以有一定的答案,即使用哪种字体使其无法被 OCR 读取,但只是为了让一般的 OCR 更难尝试使用一些像这样的书法字体不遵循一般字符特征,因此计算机软件难以阅读(这也是 CAPTCHA 背后的主要思想)。

但这同样可能会给一般的 OCR 带来困难,但它仍然不是 100% 成功的解决方案,而且它也会让任何人都很难阅读。