为Tesseract OCR创建训练图像

sas*_*alm 8 ocr tesseract

我正在编写一台用于训练Tesseract OCR图像的发生器.

为Tesseract OCR生成新字体的训练图像时,有哪些最佳值:

  1. 新闻部
  2. 以磅为单位的字体大小
  3. 字体是否应该消除锯齿
  4. 边界框应该贴合: 在此输入图像描述, 或不: 在此输入图像描述

sas*_*alm 1

我找到了第四个问题的答案 - “边界框是否应该紧密贴合”。

看来尽可能地拟合矩形会产生更好的结果。

对于其他 12 点和 300 dpi 就足够了,正如 @Yaroslav 所建议的。我认为最好关闭抗锯齿功能。