Edi*_*Edi 8 ocr tesseract imagemagick imagemagick-convert
我有以下图像,我想准备一个带有tesseract的OCR:

目标是清理图像并消除所有噪音.我正在使用textcleaner带有以下参数的ImageMagick脚本:
./textcleaner -g -e normalize -f 30 -o 12 -s 2 original.jpg output.jpg
Run Code Online (Sandbox Code Playgroud)
输出仍然不那么干净:

我为参数尝试了各种变化,但没有运气.有没有人有想法?
Kur*_*fle 10
如果转换为JPEG,您将始终拥有所看到的工件类型.
这是JPEG压缩的典型"特征".JPEG对于显示清晰线条的图像永远不会有好处,与图像的不同区域之间的均匀颜色形成对比,仅使用非常少的颜色.黑白+文本也是如此.JPEG对于典型的照片来说只是"好",有很多不同的颜色和阴影......
如果您使用PNG作为输出格式,您的问题很可能会完全得到解决.下图说明了这一点.我使用与上一个使用的示例命令相同的参数生成它,但使用PNG作为输出格式:
textcleaner -g -e normalize -f 30 -o 12 -s 2 \
http://i.stack.imgur.com/ficx7.jpg \
out.png
Run Code Online (Sandbox Code Playgroud)

这是输出的类似缩放:

如果您使用textcleaner脚本的参数,则很可能会进一步提高输出.但这是你的工作... :-)
| 归档时间: |
|
| 查看次数: |
10179 次 |
| 最近记录: |