如何查找Tesseract OCR配置文件中支持的参数

sas*_*alm 18 tesseract

我想知道Tesseract OCR使用的配置文件接受的参数,如何编写配置文件等.

我在他们的网站上找不到任何关于此的文档.如何确定支持哪些参数及其含义?

sas*_*alm 17

我在下面的链接中找到了这些说明.它们是关于编写配置文件以及放置它的位置:

配置文件是没有BOM的简单文本文件和Unix行尾标记(在Windows上,您可以使用一些高级文本编辑器,例如Notepad ++来实现此目的).

如果您使用tesseract可执行文件,这只是如何更改tesseract参数的方法.

配置文件应位于tessdata/configs目录中.看看那些例子.

有一个所有变量的列表加上各一的描述http://www.sk-spell.sk.cx/tesseract-ocr-parameters-in-302-version.请注意,它适用于Tesseract 3.02,其他版本可能会有所不同.

编辑:还添加一个pastebin链接,以防上述链接失效.


chb*_*own 12

Tesseract v3.04现在提供命令行选项--print-parameters,因此您可以调用tesseract --print-parameters以获取678(!)可配置参数的列表,它们的默认值和简短描述:

Tesseract parameters:
editor_image_xpos   590 Editor image X Pos
editor_image_ypos   10  Editor image Y Pos
editor_image_menuheight 50  Add to image height for menu bar
editor_image_word_bb_color  7   Word bounding box colour
editor_image_blob_bb_color  4   Blob bounding box colour
editor_image_text_color 2   Correct text colour
...and many, many more
Run Code Online (Sandbox Code Playgroud)


ngu*_*enq 9

它只是一个纯文本文件,包含用于Tesseract配置变量的空格分隔的键/值对,每个都在单独的行上; 例如:

interactive_display_mode T
tessedit_display_outwords T
Run Code Online (Sandbox Code Playgroud)

在Tesseract tessdata/configs文件夹下有几个标准配置文件 - 例如digits,hocr .

  • 请参考这篇文章:http://stackoverflow.com/questions/13087252/where-i-can-find-the-list-of-available-property-name-for-tesseract-setvariable (2认同)
  • 和...如何保存文件配置?我的意思是,...我应该给它什么文件名?和...命令“ tesseract”如何专门使用该配置文件?:(我有点困惑。@nguyenq (2认同)