更改图像 DPI 以用于 tesseract

Sri*_*kra 5 ocr opencv tesseract image-processing dpi

我正在做一个项目来识别名片中的文本并将它们映射到适当的字段。我使用 opencv 进行图像处理。我需要将预处理过的图像提供给 Tesseract-OCR 引擎进行文本识别。此链接 指出图像的 DPI 至少应为 300。我的图像像素大小为 2560x1536,DPI 为 72。

  • 如何将 DPI 提高到 300?
  • 也有人说调整图像大小是有益的。 如何以最佳方式调整我的图像大小以获得良好的 OCR 结果
  • Tesseract 在 DPI 至少为 300 dpi 的图像上效果最好,因此调整图像大小可能是有益的。这里的“so”是什么意思。调整图像大小和 DPI 之间有什么关系?

小智 4

对于 OCR 来说,真正重要的是像素分辨率。因为物理字符的范围可以从小到大,与采集设备的 DPI 无关。

根据经验,笔划宽度大约 3 像素是一个好的开始。如果较低,调整大小可能没有帮助,因为信息丢失。如果太高,运行时间可能会过多(或者 OCR 功能无法定制来处理它)。

如果存在不匹配,还要检查包是否不会根据其自己的笔画宽度假设和标头中存储的 DPI 信息尝试在内部调整大小。