use*_*029 19
我过去已成功使用GOCR进行小图像OCR.我会说,在相当规则的字体上正确设置灰度选项后,准确度大约为85%.当字体变得复杂并且多行布局有问题时,它会失败.
还可以看一下由Google维护的Ocropus.它与Tesseract有关,但据我所知,它的OCR引擎是不同的.仅使用默认模型,它可以在高质量图像上实现近99%的准确度,处理布局非常好,并为HTML输出提供有关格式和线条的信息.但是,根据我的经验,当图像质量不够好时,其准确度非常低.话虽如此,培训相对简单,您可能想尝试一下.
它们都可以从命令行轻松调用.GOCR的使用非常简单; 只需键入gocr -h,您就应该拥有所需的所有信息.Ocropus有点棘手; 这是Ruby中的一个用法示例:
require 'fileutils'
tmp = 'directory'
file = 'file.png'
`ocropus book2pages #{tmp}/out #{file}`
`ocropus pages2lines #{tmp}/out`
`ocropus lines2fsts #{tmp}/out`
`ocropus buildhtml #{tmp}/out > #{tmp}/output.html`
text = File.read("#{tmp}/output.html")
FileUtils.rm_rf(tmp)
Run Code Online (Sandbox Code Playgroud)
小智 5
我们在办公室使用Vividata的OCR XTR Lite.它使用ScanSoft引擎,非常准确,但不是免费的解决方案.目前它是用bash编写的,我每天处理75,000到150,000页.精度几乎是完美的,它会自动旋转图像以确定OCR方向.
| 归档时间: |
|
| 查看次数: |
13515 次 |
| 最近记录: |