使用 OCRFeeder 时如何指定 Tesseract 使用的语言

Ber*_*ock 6 ocr

我正在使用OCRFeeder的 OCR 实用程序。OCRFeeder 正在使用tesseract引擎。我已经安装了 tesseract 所需的几个语言包。如何设置语言,以便 tesseract 使用正确的语言文件将扫描的文档转换为文本?

Joã*_*nto 4

您需要在 OCR Feeder 设置上设置引擎命令行。它应该看起来像:

-l lang_id $IMAGE $FILE; cat $FILE.txt
Run Code Online (Sandbox Code Playgroud)

其中 lang_id 是对应语言包名称上显示的 id。

  • 语言标签可以在 tesseract 包的突触中找到。(spa = 西班牙语,fra = 法语,deu = 德语,nld = 荷兰语;ita = 意大利语,por = 葡萄牙语)。例如。为了扫描法语文本,我的 Tesseract-French 引擎具有以下命令行: $IMAGE $FILE -l fra; 猫 $FILE.txt (2认同)