嗨,我正在寻找一个开源Java API,可以将tiff图像转换为可搜索的pdf(OCR).我有研究但到目前为止没有发现任何东西.
注意 我已经查看了这篇文章,但是这个API没有将图像转换为pdf Java OCR实现.但是,我仍在使用代码.
您可以使用iText将图像转换为PDF.这里的难点在于进行OCR,而不是创建PDF.
我会警告你:任何值得使用的OCR引擎都会花费你很多钱.免费和/或开源的通常是宠物项目,某些算法或其他算法的概念证明.不适合现实世界的OCR应用程序.Tesseract可能是最好的,但即便如此,其准确性远远超过商用引擎.
我们有一个商业OCR应用程序,我在评估引擎时一直沿用这条路 - 我建议你咬紧牙关,联系引擎提供商并获得报价:Abbyy(最准确,最昂贵,更慢), Expervision(快速,不准确,中间道路价格),Nuance(道路中间速度,准确性和价格).这些都不是用Java编写的,因此您应该花一些时间围绕API开发JNI代码.
祝你好运 - 这是一个大项目!
| 归档时间: |
|
| 查看次数: |
3055 次 |
| 最近记录: |