我正在研究 OCR 系统。我在识别ROI内的文本时面临的一个挑战是抖动或运动效果镜头或由于角度位置而无法聚焦的文本。请考虑以下演示示例
如果您注意到文本(例如标记为红色),在这种情况下 OCR 系统无法正确识别文本。但是,这种情况也可能在没有角度拍摄的情况下出现,其中图像太模糊以至于 OCR 系统无法识别或部分识别文本。有时它们很模糊,有时分辨率很低或像素化。例如
首先,我们尝试了 SO 上可用的各种方法。但遗憾的是没有运气。
接下来,我们尝试了以下三种最有前途的方法。
1.TSRN
最近的一项研究工作(TSRN)主要关注此类案例。它的主要直觉是引入超分辨率(SR)技术作为预处理。到目前为止,这种实现看起来是最有前途的。但是,它无法在我们的自定义数据集上发挥作用(例如上面的第二张图片,蓝色文本)。以下是他们演示中的一些示例:
2. 神经增强
在查看其页面上的插图后,我们相信它可能会起作用。但遗憾的是它也无法解决这个问题。然而,即使是他们展示的例子,我也有点困惑,因为我也无法复制它们。我在 github上提出了一个问题,在那里我更详细地演示了这一点。以下是他们演示中的一些示例:
3. 情监侦
此实现中希望最小的最后选择。也没有运气。
[方法]:除此之外,我们还尝试了一些传统的方法,例如Out-of-focus Deblur Filter(Wiener 滤波器和无监督的Weiner 滤波器)。我们还检查了Richardson-Lucy方法。但这种方法也没有改进。
[方法]:我们已经检查了基于 GAN 的 DeBlur 解决方案。DeblurGAN我试过这个网络。吸引我的是Blind Motion Deblurring机制的方法。
最后,从这次 …
python ocr opencv text-recognition generative-adversarial-network