如何在小型c ++项目中使用tesseract ocr(或任何其他免费的ocr)？

Question

所以我在研究后听到的是,唯一可靠的免费OCR选项是Tesseract或CuneiForm.

现在,Tesseract文档非常可怕,他们给你的只是一堆Visual Studio代码(适用于我的Windows),从那里你就可以在他们的API海洋中独立完成.您所能做的就是使用编译的exe然后在tiff图像上使用它.

我期待至少很短的文档告诉你如何拉动他们的API调用来使用OCR至少是一个小例子但是没有,他们的文档中没有类似的东西.

CuneiForm:我下载了它,"很棒"一切都用俄语.:(

这些家伙真的很难提起一个小例子而不是他们为我们提供了大量不相关的信息,可能有90%的人无法到达,你怎么能在没有开始小事情的情况下到达那里并且他们不解释它们!

所以我有一堆API,但如果它无处可解,我该怎么用？...也许有人可以给我建议和解决方案？我不是要求一个奇迹,只是一些小事来告诉我事情是如何运作的.

Answer 1

你可能已经放弃了,但可能还有其他人仍在努力.所以这就是你需要从tesseract开始:

首先,您应该阅读有关tesseract的所有文档.您可能会发现维基有用的东西.

要开始使用API(V 3.0.1,目前在躯干,还宣读了README和更新日志行李箱),你应该看看baseapi.h.有关如何使用api的文档就在那里,每个函数上面都有注释.

对于初学者:

包含baseapi.h和构造TessBaseAPI对象
呼叫 Init()
一些可选的喜欢
- 用SetVariable()func 改变一些参数.如果使用PrintVariables()func将它们打印在文件中,则可以查看所有参数及其值.
- 使用更改分段模式SetPageSegMode().告诉tesseract您对OCR所代表的图像是什么 - 块或行文本,单词或字符.
SetImage()
GetUTF8Text()

(再说一次,这只适合初学者.)

您可以查看tesseract社区的alredy回答问题,或者在这里问自己.