Tesseract:如何一次运行多种语言的tesseract

par*_*ars 12 ocr tesseract image-processing

我必须分析一个包含英文和日文文本的图像.当我默认运行tesseract(eng)时,一些日文字符丢失了.否则,如果我用japanese(-l jpn)运行tesseract,一些英文字符会丢失(ep Email).如何运行一个识别英文和日文字符的过程.谢谢.

tob*_*obs 31

从tesseract 3.02开始,可以为-l参数指定多种语言.

-l lang要使用的语言.如果未指定,则假定为英语.可以指定多种语言,用加号字符分隔.Tesseract使用3个字符的ISO 639-2语言代码.

一个例子:

tesseract myscan.png out -l deu+eng
Run Code Online (Sandbox Code Playgroud)

  • 但是对精度有什么影响呢?如果我没有指定另一种语言,会不会有弄错一些英语单词的风险?如果我不知道文档的语言并选择十种语言怎么办?tesseract 是否只是在整个文本中尝试所有语言,然后根据每种语言的字典保留看起来更可能正确的单词? (3认同)