使用 OCRFeeder 时如何指定 Tesseract 使用的语言

Question

我正在使用OCRFeeder的 OCR 实用程序。OCRFeeder 正在使用tesseract引擎。我已经安装了 tesseract 所需的几个语言包。如何设置语言，以便 tesseract 使用正确的语言文件将扫描的文档转换为文本？

Answer 1

您需要在 OCR Feeder 设置上设置引擎命令行。它应该看起来像：

-l lang_id $IMAGE $FILE; cat $FILE.txt

其中 lang_id 是对应语言包名称上显示的 id。

语言标签可以在 tesseract 包的突触中找到。（spa = 西班牙语，fra = 法语，deu = 德语，nld = 荷兰语；ita = 意大利语，por = 葡萄牙语）。例如。为了扫描法语文本，我的 Tesseract-French 引擎具有以下命令行： $IMAGE $FILE -l fra; 猫 $FILE.txt (2认同)