Tesseract - 如何从输入坐标的图像中提取文本?

Amy*_*Amy 2 ocr tesseract image-recognition text-recognition node.js

我需要输入图像和坐标。输入坐标中存在的文本必须作为输出读取。如何使用节点超立方体来做到这一点?

Pan*_*ing 5

您需要查看从 Tesseract 返回的 .hocr 文件(您可以先通过 google hocr 获取更多信息)。.hocr 包括文本的所有边界框(x、y、宽度、高度、语言等)。然后计算位于从输入获得的坐标内的所有框。

\n\n

参考:\n http://gamemath.com/2011/09/detecting-whether-two-boxes-overlap/

\n\n

更新

\n\n

我为你做了一些研究。\n这里是您可以在 Github 上找到的“最好”(最多星星)的 Javascript github 存储库

\n\n

https://github.com/search?utf8= \xe2\x9c\x93&q=tesseract+language%3Ajavascript

\n\n

最好的一个是tesseract.js拥有超过 10000 个 star 并且最近仍然有提交

\n\n

https://github.com/naptha/tesseract.js

\n\n

在此输入图像描述

\n\n

我突出显示的部分是.hocrtesseract.js命名为它html

\n