用于读取图像内部文本的最佳Python/Ruby库

byt*_*ian 3 algorithm ocr matlab opencv image-processing

有人知道python/ruby​​中的库可以分析图像并提取文本吗?

或者一本关于图像处理的书......

PS:文本采用varius字体和格式,但清晰,Tl; Dr:No captcha或类似.

Abi*_*n K 15

您可以使用OpenCV,一个开源计算机视觉库,它有Python API.它现在被认为是一个行业标准的图书馆.

OpenCV官方网站:http://opencv.org/

如果您需要有关OpenCV-Python的一些教程,请访问:opencvpython.blogspot.com

您还可以在OpenCV-Python中检查此SOF:简单数字识别OCR

除此之外,OpenCV示例还有一些OCR实现.

但我建议你使用Tesseract进行OCR.它是惠普开发的最好的开源OCR引擎,现在由谷歌处理.

Tesseract网站:https://github.com/tesseract-ocr/tesseract

tesseract的Python API,Pytesser:https://github.com/RobinDavid/Pytesser

另请检查此SOF:如何在Tesseract和OpenCV之间进行选择?

因此,您可以使用OpenCV预处理图像并使用Tesseract进行OCR.