PaddleOCR 性能与 Tesseract 相比如何？

Question

我最近遇到了 PaddleOCR，我想知道这个 OCR 系统与 Tesseract 相比如何。有可用的数据或基准吗？

Answer 1

我在一些研究中使用这两种方法已经快一年了。我可以说，每种都有其完美的用途。

PaddleOCR 专业版：

Tesseract PRO：

Tesseract 在检测符号方面要好得多。

Tesseract在 CPU 上速度更快。

简而言之，使用 Tesseract 非常适合扫描文档，而 PaddleOCR 则适合一般计算机视觉项目。

Answer 2

我发现了PaddleOCR 2 和 Tesseract 4之间的比较，但仅限于英文文本。简单总结一下：

PaddleOCR 在 CPU 上比 Tesseract 稍慢，但在 GPU 支持下，它在标准 GPU 上比 Tesseract 快 46%。
如果没有进行后处理，PaddleOCR 的错误主要是缺少单词和标点符号之间的空格。然而，这些错误很容易纠正。后处理后的精度与 Tesseract 相当（低 1%）。
英语预训练模型的文件大小仅为 Tesseracts 英语训练数据的 10%（2MB vs 23MB）。

对于目前 PaddleOCR 的主要优先考虑的中文文本，情况可能有所不同。