Its*_*sMe 7 ocr noise-cancelling
我试图在多张扫描的工作表上运行 OCR,其中的数字如下图(所有背景都相同,只有数字):

但是所有的试验都失败了!我尝试了离线 OCR:gocr、tesseract 和几个在线 OCR;但一切都完全失败了!
我该怎么办?
首先,您必须调整这些图像。我推荐一个像XnViewMP这样的免费和多平台的批处理工具。
它有一个文件浏览器。选择所有图像,然后转到Tools - Batch convert。像我一样添加操作:

以下是我的行动:
不要忘记另存为tiff(请参阅输出选项卡)。之后我运行tesseract:
tesseract test.tif text -psm 7
Run Code Online (Sandbox Code Playgroud)
注意我选择了 PSM 模式 7:将图像视为单个文本行。如果您有多行,您可能需要使用模式 6 或 3。
这是text.txt输出文件的内容:
570 394 666 638 043
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
5053 次 |
| 最近记录: |