如何将标题和标题与图像中的正文文本分开

Question

我正在使用 tesseract（通过 python 包装器）来从文档中提取文本。这些文档不包含任何图像或表格，仅包含文本。

是否有任何选项可以将标题/标题与文本区分开来？理想情况下，我希望能够拥有类似于 xml 树的东西，而不是完整的字符串链（我不需要查看文档布局）。

我找到了一些似乎能够提供帮助的第三方工具，但我想知道是否可以直接从 tesseract 中完成。

Answer 1

您可以使用Nanonets OCR api 创建自己的模型来分隔标题和文本，也可以添加不同的标签。