Tesseract:指定文本区域

sas*_*alm 12 ocr tesseract

我正在使用tesseract-ocr-3.01来扫描多种形式.表单都遵循模板,因此我已经知道文本的区域/矩形在哪里.

有没有办法在使用命令行工具时将这些区域传递给tesseract?

sas*_*alm 14

我找到了答案,感谢这个帖子.

似乎tesseract支持uzn格式(在unvl测试中使用).

从线程:

使用参数"-psm 4"调用tesseract并使用相同的图像名称重命名uzn文件似乎有效.

例如:如果我们有C:\input.tifC:\input.uzn,我们这样做:

tesseract -psm 4 C:\input.tif C:\output
Run Code Online (Sandbox Code Playgroud)