Tesseract OCR 不会忽略黑名单字符

Question

Tesseract OCR 不会忽略黑名单字符

我正在使用 Tessearct OCR 来识别图像的字符。但我希望使用 OCR 忽略数字字符

_tesseract->SetVariable("tessedit_char_blacklist", "0123456789");

Run Code Online (Sandbox Code Playgroud)

通过这种方式，OCR 无法识别数字字符，但它为我提供了一些我不想要的其他字符来代替它们。

举个例子：有一个图像，其文本为12 美元，当我在该图像上应用 OCR 时，它会为我提供USD fl

正如我们在上面看到的，OCR 将12转换为 fl，这是我不想要的。我希望OCR 忽略12 。

有什么方法可以得到美元结果而不是 美元 fl

为我提供任何解决方案。任何帮助都将非常重要。

Answer 1

Arn*_*aud 6

请参阅此方法的评论SetVariable()：

// For most variables, it is wise to set them before calling Init.

Run Code Online (Sandbox Code Playgroud)

我和你有同样的问题，在Init修复它之前移动了代码：

tess = new TessBaseAPI();    
tess->SetVariable("tessedit_char_whitelist", 
   "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz");
tess->SimpleInit([dataPath cStringUsingEncoding:NSUTF8StringEncoding],  
   "eng", false);

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，10 月前
查看次数：	6524 次
最近记录：	10 年，3 月前