Ami*_*hai 6 python ocr hebrew computer-vision python-tesseract
我想从图像中提取希伯来语文本。
\n\n我尝试过使用 pytesseract,但它会混淆一些字母(例如 ' 而不是 \xd7\x99 或 \xd7\xa0 而不是 \xd7\x9b)
\n\n我尝试对图像进行一些操作(例如调整大小、消除噪声和二值化),这有一点帮助,但仍然出现很多错误。
\n\n我花了几个小时寻找更好的文本提取工具但找不到。
\n\n所以这是我的问题:
\n\nA) 有没有我可以使用但我可能错过的工具?
\n\nB) 如果没有,创建我自己的步骤是什么?
\n\n预先感谢\nAmichai
\n选择正确的 OCR 可能是一件困难的事情,但您似乎已经走在正确的轨道上(如 Stackoverflow 帖子中所示)。
一般来说,如果你对 Tesseract 的质量不满意,那么你似乎(大部分)运气不佳;从我读到的内容来看, OCROpus中似乎可能有替代方案
,尽管这似乎不如 PyTesseract 方法那么简单。
此外,深入研究Tesseract 的 GitHub 存储库发现,基于 LSTM 的 4.0 版本正在积极开发中,这可能会给您带来更好的结果。我不完全知道 PyTesseract 正在调用什么 Tesseract 版本,但它可能值得研究,因为替换 Tesseract 可能比想象自己进入一个全新的环境更容易。
PS:对于“如何构建自己的OCR”这个问题,我强烈建议不要这样做。仅仅收集所有数据并掌握正确的基础知识将花费您大量的精力,并且通常不值得您花费时间;如果你得到一些有用的东西,它可能仍然比任何提供的库更糟糕。
| 归档时间: | 
 | 
| 查看次数: | 5624 次 | 
| 最近记录: |