更改图像 DPI 以用于 tesseract

Question

我正在做一个项目来识别名片中的文本并将它们映射到适当的字段。我使用 opencv 进行图像处理。我需要将预处理过的图像提供给 Tesseract-OCR 引擎进行文本识别。此链接指出图像的 DPI 至少应为 300。我的图像像素大小为 2560x1536，DPI 为 72。

如何将 DPI 提高到 300？
也有人说调整图像大小是有益的。如何以最佳方式调整我的图像大小以获得良好的 OCR 结果
Tesseract 在 DPI 至少为 300 dpi 的图像上效果最好，因此调整图像大小可能是有益的。这里的“so”是什么意思。调整图像大小和 DPI 之间有什么关系？

Answer 1

对于 OCR 来说，真正重要的是像素分辨率。因为物理字符的范围可以从小到大，与采集设备的 DPI 无关。

根据经验，笔划宽度大约 3 像素是一个好的开始。如果较低，调整大小可能没有帮助，因为信息丢失。如果太高，运行时间可能会过多（或者 OCR 功能无法定制来处理它）。

如果存在不匹配，还要检查包是否不会根据其自己的笔画宽度假设和标头中存储的 DPI 信息尝试在内部调整大小。