用图像而不是字体训练 tesseract 4

M.R*_*ama 10 tesseract

我有一些关于为 tesseract 4 制作 tiff/box 文件的问题。在 TrainingTesseract 4.00 文档中写道:

制作盒子文件 与基础 Tesseract 一样,可以选择从字体渲染合成训练数据,或标记一些预先存在的图像(例如古代手稿)。

但它没有解释如何使用预先存在的图像进行训练。

我想在 tesseract 4 (lstm) 中训练波斯语。我有一些来自古代手稿的图像,想用图像和文本而不是字体进行训练。所以我不能使用text2image命令。我知道旧格式的盒子文件不适用于 LSTM 训练。

  1. 如何为 tessearct 4 lstm 制作 tif/box 然后标记它们以及如何更改 tesseract 命令?
  2. 我是否应该使用其他工具来生成框文件(鉴于波斯语是从右到左)?
  3. 我应该使用微调还是从头开始训练?

小智 8

我和你一样苦苦挣扎,直到我找到了这个 github 仓库:https : //github.com/OCR-D/ocrd-train

它会让你的生活变得超级轻松。您需要做的就是将图像设为 tif 格式,并且您的文本应具有相同的图像名称,扩展名为 .gt.txt。它会为您处理所有其余的事情。(您可能需要根据您的本地机器更新 Makefile)

是从头开始训练还是微调取决于你自己的语言、数据和你试图解决的问题。对我来说,微调是我需要的,因为我对当前的性能感到满意,但需要对其进行补充。

您可能需要的所有有用细节都可以在此答案中找到