如何将标题和标题与图像中的正文文本分开

Pri*_*ers 8 python ocr opencv tesseract python-tesseract

我正在使用 tesseract(通过 python 包装器)来从文档中提取文本。这些文档不包含任何图像或表格,仅包含文本。

是否有任何选项可以将标题/标题与文本区分开来?理想情况下,我希望能够拥有类似于 xml 树的东西,而不是完整的字符串链(我不需要查看文档布局)。

我找到了一些似乎能够提供帮助的第三方工具,但我想知道是否可以直接从 tesseract 中完成。

在此处输入图片说明

小智 1

您可以使用Nanonets OCR api 创建自己的模型来分隔标题和文本,也可以添加不同的标签。