如何在自定义数据集上微调超正方体？

我知道这个问题可能不是一个新问题，但训练/微调超正方体是最难的部分之一，我永远找不到任何可以正确解释它的文章。所有的教程或文档都没有人完整地解释它，浏览它们会提出更多的问题而不是答案。

所以我真的希望我能在几个方面得到一些澄清，如果可能的话，用外行的话来说。

我有一些这样的简历，link1 link2 link3

这些是一些复杂的简历，训练它们需要 tesseract 了解是否从左到右提取文本，特别是在两列简历中，它需要解析一列文本，然后解析另一列文本。

现在，我如何为此目的微调超正方体，因为在尝试时它没有正确解析它？

有人说我需要创建一个包含图像中每个字符坐标的框文件，一些文档说您需要一个图像文件和一个包含文本的同名文本文件？这里哪个是正确的格式？这比我这样的问题有优势。

现在，如果我需要获取每个字符坐标，我可以使用像 google Vision api 这样的在线 ocr 平台来生成此类数据，因为手动注释它们永远不是一件容易的任务。即使谷歌视觉 API 返回文本和每个字符边界坐标，它可能不是 tesseract 正在寻找的坐标？

另外，tesseract 是否可以解决我的问题，或者我是否需要构建一个单独的 ocr 模型（我可以利用的任何 github 链接或预训练模型）？

请对我的问题提供任何形式的帮助，我已经到处寻找答案几个星期了，但没有运气。请帮帮我。

编辑：期待更详细的答案。