如何提高python中扫描图像中文本的分辨率?

Jen*_*fer 7 python image python-tesseract

我使用 tesseract-OCR 从扫描图像中提取文本,对于少数图像,由于分辨率低而无法正确识别文本,并且产生的输出是一些不相关的字符。

应用技术:

  1. 将 dpi 增加到 300。

  2. opencv 中的图像预处理技术。

  3. 在 opencv 中使用 dnn_superres 放大图像

  4. 降噪技术。

  5. 参考 git repos,其中使用深度学习开发了超分辨率算法模型。

  6. 通过训练 tessdata 提高 tesseract-ocr 质量。

参考链接

  1. 提高扫描文档的 OCR 准确性
  2. 图像处理以提高tesseract OCR准确性

示例图像:

在此处输入图片说明

python中有没有什么简单的方法可以在不使用任何深度学习模型的情况下改进文本。

Mat*_*ith 7

我知道您更喜欢使用深度学习来升级这些输入图像,但我强烈建议您尝试使用https://github.com/alexjc/neural-enhance,假设您有适当的硬件来运行神经网络和深度学习学习。

OCR 输入图像的结果可能很有希望。代码的文档非常丰富。

希望这对您有帮助!