Tesseract不承认德语"für"

gue*_*tli 10 ocr tesseract

我通过docker image tesseractshadow/tesseract4re使用tesseract 4.0

我使用选项-l=deu给tesseract提示,文本是"deutsch"(德语).

德语单词"für"的结果仍然不好.德语单词很常见(英语中的"for").

Tesseract经常检测"fiir"或"fur".

我该怎么做才能改善这一点?

可重复的例子

docker run --name self.container_name --rm \
    --volume  $PWD:/pwd \
    tesseractshadow/tesseract4re \
    tesseract /pwd/die-fuer-das.png /pwd/die-fuer-das.png.ocr-result -l=deu
Run Code Online (Sandbox Code Playgroud)

结果:

cat die-fuer-das.png.ocr-result.txt 
die fur das
Run Code Online (Sandbox Code Playgroud)

图片die_fuer_das.png:

在此输入图像描述

gue*_*tli 6

我找到了解决方案.它需要-l deu否则德语并不习惯.我不小心用过-l=deu.

作品:

===> tesseract  die-fuer-das.png out  -l deu; cat out.txt
Tesseract Open Source OCR Engine v4.0.0-beta.1-262-g555f with Leptonica
die für das
Run Code Online (Sandbox Code Playgroud)

错误的语言:

===> tesseract  die-fuer-das.png out  -l=deu; cat out.txt
Tesseract Open Source OCR Engine v4.0.0-beta.1-262-g555f with Leptonica
die fur das
Run Code Online (Sandbox Code Playgroud)