我有55000个图像文件(JPG和TIFF格式),这些图像来自一本书.
每个页面的结构是这样的:
一些文字
---(水平线)---
一个号码
一些文字
---(水平线)---
另一个号码
一些文字
在任何给定页面上可以有0到4条水平线.
我需要找到数字,在水平线下方.
但是,数字严格遵循,从第一页开始,所以为了找到数字,我不需要阅读它:我只能检测水平线的存在,这应该比更容易和更安全.试图OCR页面来检测数字.
该算法基本上是:
for each image
count horizontal lines
print image name, number of horizontal lines
next image
Run Code Online (Sandbox Code Playgroud)
问题是:什么是最好的图像库/语言来做"计数水平线"部分?