我正在处理的一个问题是对文档进行OCR.一些paystub文档有一个带点的高亮线,以区分重要元素,如总薪酬,净薪酬等.
这些点在OCR中产生错误结果,它将它们视为":"字符并且不会给出期望的结果.我已经尝试了许多用于图像处理的东西,比如ImageMagick等,以去除这些点.但是在每种情况下,整个文本数据的质量都会降低,导致OCR差.
我尝试过的ImageMagick命令是:
转换mm150.jpg -kuwahara 3 mm2.jpg
我也尝试了连接组件,内核侵蚀等,但每种方法都以某种方式失败.
我想知道是否有一些我应该遵循的方法,或者我是否遗漏了图像处理功能.
使用脚本将dxf转换为png时,我需要绘制仅具有三个参数的圆弧,即圆弧的起点,圆弧的终点和凸出距离。
我已经检查了OpenCV和PIL,它们都需要起点和终点角度来绘制此弧。我可以使用某些几何来找出这些角度,但想知道是否还有其他解决方案我错过了。