在Python中从图像中提取希伯来语文本

Question

在Python中从图像中提取希伯来语文本

Ami*_*hai 6 python ocr hebrew computer-vision python-tesseract

我想从图像中提取希伯来语文本。

\n\n

我尝试过使用 pytesseract，但它会混淆一些字母（例如 ' 而不是 \xd7\x99 或 \xd7\xa0 而不是 \xd7\x9b）

\n\n

我尝试对图像进行一些操作（例如调整大小、消除噪声和二值化），这有一点帮助，但仍然出现很多错误。

\n\n

我花了几个小时寻找更好的文本提取工具但找不到。

\n\n

所以这是我的问题：

\n\n

A) 有没有我可以使用但我可能错过的工具？

\n\n

B) 如果没有，创建我自己的步骤是什么？

\n\n

预先感谢\nAmichai

\n

Answer 1

den*_*ger 3

选择正确的 OCR 可能是一件困难的事情，但您似乎已经走在正确的轨道上（如 Stackoverflow 帖子中所示）。

一般来说，如果你对 Tesseract 的质量不满意，那么你似乎（大部分）运气不佳；从我读到的内容来看， OCROpus中似乎可能有替代方案，尽管这似乎不如 PyTesseract 方法那么简单。
此外，深入研究Tesseract 的 GitHub 存储库发现，基于 LSTM 的 4.0 版本正在积极开发中，这可能会给您带来更好的结果。我不完全知道 PyTesseract 正在调用什么 Tesseract 版本，但它可能值得研究，因为替换 Tesseract 可能比想象自己进入一个全新的环境更容易。

PS：对于“如何构建自己的OCR”这个问题，我强烈建议不要这样做。仅仅收集所有数据并掌握正确的基础知识将花费您大量的精力，并且通常不值得您花费时间；如果你得到一些有用的东西，它可能仍然比任何提供的库更糟糕。

归档时间：	7 年，3 月前
查看次数：	5624 次
最近记录：	3 年，5 月前