use*_*_12 6 tesseract python-tesseract tess4j tesseract.js
我知道这个问题可能不是一个新问题,但训练/微调超正方体是最难的部分之一,我永远找不到任何可以正确解释它的文章。所有的教程或文档都没有人完整地解释它,浏览它们会提出更多的问题而不是答案。
所以我真的希望我能在几个方面得到一些澄清,如果可能的话,用外行的话来说。
这些是一些复杂的简历,训练它们需要 tesseract 了解是否从左到右提取文本,特别是在两列简历中,它需要解析一列文本,然后解析另一列文本。
现在,我如何为此目的微调超正方体,因为在尝试时它没有正确解析它?
有人说我需要创建一个包含图像中每个字符坐标的框文件,一些文档说您需要一个图像文件和一个包含文本的同名文本文件?这里哪个是正确的格式?这比我这样的问题有优势。
现在,如果我需要获取每个字符坐标,我可以使用像 google Vision api 这样的在线 ocr 平台来生成此类数据,因为手动注释它们永远不是一件容易的任务。即使谷歌视觉 API 返回文本和每个字符边界坐标,它可能不是 tesseract 正在寻找的坐标?
另外,tesseract 是否可以解决我的问题,或者我是否需要构建一个单独的 ocr 模型(我可以利用的任何 github 链接或预训练模型)?
请对我的问题提供任何形式的帮助,我已经到处寻找答案几个星期了,但没有运气。请帮帮我。
编辑:期待更详细的答案。