我需要从图像文件中提取一些文本,但手写信息没有得到好的结果。它写在打印纸上,我用适当的扫描仪扫描回来
手写信息遵循一定的模式,在大多数情况下位于空白区域且大小合适
我尝试过的:
- tesseract 的不同语言(eng_best、eng_fast、por_best、por_fast)
- 阅读前进行不同的图像处理(灰度、模糊和许多其他人的食谱)
- 用于隔离蓝色的颜色阈值(我尝试过的范围均无效)
- 用 gimp 擦除打印文本以隔离书面内容(仍然 tesseract 无法高效)
- cv2.matchTemplate 查找数据的索引并映射它
我已经没有主意了
这是一张图片作为例子