Pri*_*ers 8 python ocr opencv tesseract python-tesseract
我正在使用 tesseract(通过 python 包装器)来从文档中提取文本。这些文档不包含任何图像或表格,仅包含文本。
是否有任何选项可以将标题/标题与文本区分开来?理想情况下,我希望能够拥有类似于 xml 树的东西,而不是完整的字符串链(我不需要查看文档布局)。
我找到了一些似乎能够提供帮助的第三方工具,但我想知道是否可以直接从 tesseract 中完成。
小智 1
您可以使用Nanonets OCR api 创建自己的模型来分隔标题和文本,也可以添加不同的标签。
归档时间:
7 年,3 月 前
查看次数:
1721 次
最近记录:
4 年,3 月 前