Tesseract:如何一次运行多种语言的tesseract

Question

我必须分析一个包含英文和日文文本的图像.当我默认运行tesseract(eng)时,一些日文字符丢失了.否则,如果我用japanese(-l jpn)运行tesseract,一些英文字符会丢失(ep Email).如何运行一个识别英文和日文字符的过程.谢谢.

Answer 1

从tesseract 3.02开始,可以为-l参数指定多种语言.

-l lang要使用的语言.如果未指定,则假定为英语.可以指定多种语言,用加号字符分隔.Tesseract使用3个字符的ISO 639-2语言代码.

一个例子:

tesseract myscan.png out -l deu+eng

但是对精度有什么影响呢？如果我没有指定另一种语言，会不会有弄错一些英语单词的风险？如果我不知道文档的语言并选择十种语言怎么办？tesseract 是否只是在整个文本中尝试所有语言，然后根据每种语言的字典保留看起来更可能正确的单词？ (3认同)