Pri*_*ers 8 python ocr opencv tesseract python-tesseract
我正在使用 tesseract(通过 python 包装器)来从文档中提取文本。这些文档不包含任何图像或表格,仅包含文本。
是否有任何选项可以将标题/标题与文本区分开来?理想情况下,我希望能够拥有类似于 xml 树的东西,而不是完整的字符串链(我不需要查看文档布局)。
我找到了一些似乎能够提供帮助的第三方工具,但我想知道是否可以直接从 tesseract 中完成。
| 归档时间: |
|
| 查看次数: |
1721 次 |
| 最近记录: |