我通过docker image tesseractshadow/tesseract4re使用tesseract 4.0
我使用选项-l=deu给tesseract提示,文本是"deutsch"(德语).
德语单词"für"的结果仍然不好.德语单词很常见(英语中的"for").
Tesseract经常检测"fiir"或"fur".
我该怎么做才能改善这一点?
可重复的例子
docker run --name self.container_name --rm \
--volume $PWD:/pwd \
tesseractshadow/tesseract4re \
tesseract /pwd/die-fuer-das.png /pwd/die-fuer-das.png.ocr-result -l=deu
Run Code Online (Sandbox Code Playgroud)
结果:
cat die-fuer-das.png.ocr-result.txt
die fur das
Run Code Online (Sandbox Code Playgroud)
图片die_fuer_das.png:
我找到了解决方案.它需要-l deu否则德语并不习惯.我不小心用过-l=deu.
作品:
===> tesseract die-fuer-das.png out -l deu; cat out.txt
Tesseract Open Source OCR Engine v4.0.0-beta.1-262-g555f with Leptonica
die für das
Run Code Online (Sandbox Code Playgroud)
错误的语言:
===> tesseract die-fuer-das.png out -l=deu; cat out.txt
Tesseract Open Source OCR Engine v4.0.0-beta.1-262-g555f with Leptonica
die fur das
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
515 次 |
| 最近记录: |