Python Tesseract OCR训练到特定单词列表

Inê*_*ins 5 python string ocr tesseract image-processing

我对OCR和Tesseract还是陌生的。

到目前为止，我有一个工作脚本可以从图像中提取相当不错的文本。

我的疑问：是否可以训练tesseract以仅检索某种词典文件中显示的单词/字符？

例如，我有一个.txt，其中包含很多人的名字，我想训练Tesseract：“ SONIA”不是“ 50NlA”，“ YANNICK”不是“ VANNlD”，等等。

如果它具有所有可能名称的列表，将能够提供更好的准确性？如果原始图像是带有很多人名和有关该人的其他信息的文本，但是我只想从ocr中检索名字而忽略“嘈杂的信息”，该怎么办？抱歉，这是一个愚蠢的问题。

我已经阅读了https://groups.google.com/forum/#!topic/tesseract-ocr/r5qkHxQOT98和手册http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1。 html并创建eng.user-words和市集文件...下一步应该做什么？由于它给了我相同的输出...

非常感谢您的时间和耐心。

归档时间：	10 年，8 月前
查看次数：	1803 次
最近记录：	10 年，7 月前

UPDATE和REPLACE字符串的一部分 392

django 1.4 - 无法比较offset-naive和offset-aware datetimes 82

django模板显示项目值或空字符串 74

django - 将列表转换回查询集 54

为什么Python对于简单的for循环来说太慢了？ 43

String.Format在字符串中存储双引号 21

只能将 str （不是“字节”）连接到 str 20

如何在鱼壳的字符串中换行？ 8

如何识别一组像素近似为矩形？ 4

对象(汽车)检测和分割 3

如何删除远程标签？ 3121

如何在Python中延迟时间？ 2638

"最小的惊讶"和可变的默认论证 2458

接口和抽象类之间有什么区别？ 1705

如何将键/值对添加到JavaScript对象？ 1270

选择每个GROUP BY组中的第一行？ 1205

如何禁用UITableView选择？ 1176

获取对象类型的名称 1159

如何在Git中仅提交区分大小写的文件名更改？ 1157

如何列出使用ATTACH打开的SQLite数据库文件中的表？ 1151