用图像而不是字体训练 tesseract 4

Question

我有一些关于为 tesseract 4 制作 tiff/box 文件的问题。在 TrainingTesseract 4.00 文档中写道：

制作盒子文件与基础 Tesseract 一样，可以选择从字体渲染合成训练数据，或标记一些预先存在的图像（例如古代手稿）。

但它没有解释如何使用预先存在的图像进行训练。

我想在 tesseract 4 (lstm) 中训练波斯语。我有一些来自古代手稿的图像，想用图像和文本而不是字体进行训练。所以我不能使用text2image命令。我知道旧格式的盒子文件不适用于 LSTM 训练。

Answer 1

我和你一样苦苦挣扎，直到我找到了这个 github 仓库：https : //github.com/OCR-D/ocrd-train

它会让你的生活变得超级轻松。您需要做的就是将图像设为 tif 格式，并且您的文本应具有相同的图像名称，扩展名为 .gt.txt。它会为您处理所有其余的事情。（您可能需要根据您的本地机器更新 Makefile）

是从头开始训练还是微调取决于你自己的语言、数据和你试图解决的问题。对我来说，微调是我需要的，因为我对当前的性能感到满意，但需要对其进行补充。

您可能需要的所有有用细节都可以在此答案中找到