带有灰色嘈杂背景的数字的 OCR

Question

带有灰色嘈杂背景的数字的 OCR

Its*_*sMe 7 ocr noise-cancelling

我试图在多张扫描的工作表上运行 OCR，其中的数字如下图（所有背景都相同，只有数字）：

在此处输入图片说明

但是所有的试验都失败了！我尝试了离线 OCR：gocr、tesseract 和几个在线 OCR；但一切都完全失败了！

我该怎么办？

Answer 1

Cor*_*ius 8

首先，您必须调整这些图像。我推荐一个像XnViewMP这样的免费和多平台的批处理工具。

它有一个文件浏览器。选择所有图像，然后转到Tools - Batch convert。像我一样添加操作：

XNViewMP - 批量转换 - 操作选项卡

以下是我的行动：

HLS - 使其灰度化：
- 色调：0
- 亮度：0
- 饱和度：-127
级别- 降低黑色级别，以便灰色噪声消失
- 黑点：0
- 白点： 212 - 可能因图像而异
降低噪音过滤器
调整以增加对比度
- 亮度：0
- 对比度：127 - 这个很重要
- 伽玛：1.06
使黑色变厚的 最小值

过滤器尺寸： 5x5 - 可能因图像而异

不要忘记另存为tiff（请参阅输出选项卡）。之后我运行tesseract：

tesseract test.tif text -psm 7
Run Code Online (Sandbox Code Playgroud)
注意我选择了 PSM 模式 7：将图像视为单个文本行。如果您有多行，您可能需要使用模式 6 或 3。

这是text.txt输出文件的内容：

570 394 666 638 043
Run Code Online (Sandbox Code Playgroud)

我想知道这些操作是否也可以用 [GraphicsMagick](http://www.graphicsmagick.org) 来完成。 (2认同)

归档时间：	11 年，7 月前
查看次数：	5053 次
最近记录：	7 年，3 月前