我想知道Tesseract OCR使用的配置文件接受的参数,如何编写配置文件等.
我在他们的网站上找不到任何关于此的文档.如何确定支持哪些参数及其含义?
sas*_*alm 17
我在下面的链接中找到了这些说明.它们是关于编写配置文件以及放置它的位置:
配置文件是没有BOM的简单文本文件和Unix行尾标记(在Windows上,您可以使用一些高级文本编辑器,例如Notepad ++来实现此目的).
如果您使用tesseract可执行文件,这只是如何更改tesseract参数的方法.
配置文件应位于tessdata/configs目录中.看看那些例子.
有一个所有变量的列表加上各一的描述http://www.sk-spell.sk.cx/tesseract-ocr-parameters-in-302-version.请注意,它适用于Tesseract 3.02,其他版本可能会有所不同.
编辑:还添加一个pastebin链接,以防上述链接失效.
chb*_*own 12
Tesseract v3.04现在提供命令行选项--print-parameters,因此您可以调用tesseract --print-parameters以获取678(!)可配置参数的列表,它们的默认值和简短描述:
Tesseract parameters:
editor_image_xpos 590 Editor image X Pos
editor_image_ypos 10 Editor image Y Pos
editor_image_menuheight 50 Add to image height for menu bar
editor_image_word_bb_color 7 Word bounding box colour
editor_image_blob_bb_color 4 Blob bounding box colour
editor_image_text_color 2 Correct text colour
...and many, many more
Run Code Online (Sandbox Code Playgroud)
它只是一个纯文本文件,包含用于Tesseract配置变量的空格分隔的键/值对,每个都在单独的行上; 例如:
interactive_display_mode T
tessedit_display_outwords T
Run Code Online (Sandbox Code Playgroud)
在Tesseract tessdata/configs文件夹下有几个标准配置文件 - 例如digits,hocr .
| 归档时间: |
|
| 查看次数: |
49652 次 |
| 最近记录: |