带有非语言文本的 OCR

Dan*_*iel 5 ocr tesseract-ocr

我对使用 OCR 识别不包含单词的文档中的文本很感兴趣。相反,它是一个带有一长串“随机”打印字符的文档。我一直在尝试使用tesseract来扫描文本,但它似乎在寻找单词。有没有办法告诉 tesseract 只进行简单的字符识别?

小智 4

是的,您可以通过定义包含以下内容的配置文件来禁用字典

load_system_dawg F
load_freq_dawg F
Run Code Online (Sandbox Code Playgroud)

并用命令指定它。