我正在使用 Tessearct OCR 来识别图像的字符。但我希望使用 OCR 忽略数字字符
_tesseract->SetVariable("tessedit_char_blacklist", "0123456789");
Run Code Online (Sandbox Code Playgroud)
通过这种方式,OCR 无法识别数字字符,但它为我提供了一些我不想要的其他字符来代替它们。
举个例子:有一个图像,其文本为12 美元,当我在该图像上应用 OCR 时,它会为我提供USD fl
正如我们在上面看到的,OCR 将12转换为 fl,这是我不想要的。我希望OCR 忽略12 。
有什么方法可以得到美元结果而不是 美元 fl
为我提供任何解决方案。任何帮助都将非常重要。
请参阅此方法的评论SetVariable():
// For most variables, it is wise to set them before calling Init.
Run Code Online (Sandbox Code Playgroud)
我和你有同样的问题,在Init修复它之前移动了代码:
tess = new TessBaseAPI();
tess->SetVariable("tessedit_char_whitelist",
"0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz");
tess->SimpleInit([dataPath cStringUsingEncoding:NSUTF8StringEncoding],
"eng", false);
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
6524 次 |
| 最近记录: |