使用ImageMagick和'textcleaner'清理OCR图像

Edi*_*Edi 8 ocr tesseract imagemagick imagemagick-convert

我有以下图像,我想准备一个带有tesseract的OCR: 在此输入图像描述

目标是清理图像并消除所有噪音.我正在使用textcleaner带有以下参数的ImageMagick脚本:

./textcleaner -g -e normalize -f 30 -o 12 -s 2 original.jpg output.jpg
Run Code Online (Sandbox Code Playgroud)

输出仍然不那么干净: 在此输入图像描述

我为参数尝试了各种变化,但没有运气.有没有人有想法?

Kur*_*fle 10

如果转换为JPEG,您将始终拥有所看到的工件类型.

这是JPEG压缩的典型"特征".JPEG对于显示清晰线条的图像永远不会有好处,与图像的不同区域之间的均匀颜色形成对比,仅使用非常少的颜色.黑白+文本也是如此.JPEG对于典型的照片来说只是"好",有很多不同的颜色和阴影......

如果您使用PNG作为输出格式,您的问题很可能会完全得到解决.下图说明了这一点.我使用与上一个使用的示例命令相同的参数生成它,但使用PNG作为输出格式:

textcleaner -g -e normalize -f 30 -o 12 -s 2 \
    http://i.stack.imgur.com/ficx7.jpg       \
    out.png
Run Code Online (Sandbox Code Playgroud)

PNG而不是JPEG输出

这是输出的类似缩放:

缩放PNG

如果您使用textcleaner脚本的参数,则很可能会进一步提高输出.但这是你的工作... :-)