Dan*_*edo 6 python pdf ocr opencv tesseract
我一直在寻找一种可以在保持结构的同时从 PDF 中提取文本的工具。也就是说,给定这样的文本:
副标题1
身体 1
副标题2
身体2
或者
副标题1。身体 1
副标题2。身体2
我想要一个可以输出标题、副标题和正文列表的工具。或者,如果有人知道如何做到这一点,那也很有用:)
如果这 3 个类别的格式相同,这会更容易,但有时字幕可以是粗体、斜体、下划线或 3 的随机组合。标题也是如此。从 HTML/PDF/Docx 中简单解析的问题在于这些文本没有标准,因此我们经常会遇到被分成多个标签的句子(在 HTML 的情况下)并且非常难以解析。正如您所看到的,字幕并不总是在给定的段落之上,或者有时在要点中。这么多可能的格式组合......
到目前为止,我在这里使用 Tesseract 和这里使用 OpenCV遇到过类似的查询,但他们都没有完全回答我的问题。
我知道有一些机器学习工具可以从科学论文中提取“目录”部分,但这也不能削减它。有谁知道包/库,或者是否已经实现了这样的东西?或者有谁知道解决这个问题的方法,最好是在 Python 中?
谢谢!
我所指的文件是来自公司的 10-K,例如这个https://www.sec.gov/Archives/edgar/data/789019/000119312516662209/d187868d10k.htm#tx187868_10 并且说,我想提取项目7 以我上面提到的程序化和结构化的方式。但并非所有这些都被标准化来进行 HTML 解析。(PDF 文档就是保存为 PDF 的这个 HTML)
有一些工具可以在一定程度上完成您所请求的功能。我所说的“一定程度”是指在 OCR 转换后标题和标题字体属性将被保留。
看一下 Adobe 的 Document Cloud 平台。目前仍处于启动阶段,将于 2020 年初推出。不过,开发者可以通过注册抢先体验计划来抢先体验。所有信息均可在以下链接中找到:
https://www.adobe.com/devnet-docs/dcsdk/servicessdk/index.html
我亲自尝试过这项服务,结果看起来很有希望。所有标题和标题大小写都按照输入文档中的形式进行识别。提供此功能的微服务是“ ExportPDF ”服务,可将扫描的 PDF 文档转换为 Microsoft Word 文档。
示例代码位于:https://www.adobe.com/devnet-docs/dcsdk/servicessdk/howtos.html#export-a-pdf