开源OCR

Chr*_*ris 15 ruby java linux pdf ocr

我正在寻找一个在Linux上运行的开源OCR库.我需要这个适用于PNG和PDF.大多数情况下,我想从java或ruby接口这个库.知道是否有可用的东西?

问候.

oli*_*sle 12

Tesseract是一个非常好的OCR引擎:https://github.com/tesseract-ocr/tesseract

该项目由惠普实验室推出,现在由谷歌继续赞助(Google Books!).它是在Apache许可下发布的,它在Linux上运行.它使用Tiff或PNG文件; 对于PDF,您需要转换为这些格式之一.我想没有绑定所以你应该把这个软件作为子程序来调用......


Ben*_*son 1

楔形文字是免费的并且做得很好。您可以将其作为子程序调用,但据我所知没有语言绑定。它不会直接读取 PDF,但您可以轻松地分解作为扫描图像序列的 PDF,并将其输入楔形文字。还有一些脚本可以将图像和文本重新组合成可搜索的 PDF。