标题

副标题1

身体 1

副标题2

身体2

或者

标题

副标题1。身体 1

副标题2。身体2

我想要一个可以输出标题、副标题和正文列表的工具。或者，如果有人知道如何做到这一点，那也很有用:)

如果这 3 个类别的格式相同，这会更容易，但有时字幕可以是粗体、斜体、下划线或 3 的随机组合。标题也是如此。从 HTML/PDF/Docx 中简单解析的问题在于这些文本没有标准，因此我们经常会遇到被分成多个标签的句子（在 HTML 的情况下）并且非常难以解析。正如您所看到的，字幕并不总是在给定的段落之上，或者有时在要点中。这么多可能的格式组合......

到目前为止，我在这里使用 Tesseract 和这里使用 OpenCV遇到过类似的查询，但他们都没有完全回答我的问题。

我知道有一些机器学习工具可以从科学论文中提取“目录”部分，但这也不能削减它。有谁知道包/库，或者是否已经实现了这样的东西？或者有谁知道解决这个问题的方法，最好是在 Python 中？

谢谢！

编辑：

我所指的文件是来自公司的 10-K，例如这个https://www.sec.gov/Archives/edgar/data/789019/000119312516662209/d187868d10k.htm#tx187868_10 并且说，我想提取项目7 以我上面提到的程序化和结构化的方式。但并非所有这些都被标准化来进行 HTML 解析。（PDF 文档就是保存为 PDF 的这个 HTML）

python pdf ocr opencv tesseract

Dan*_*edo

2020 06-20

6
推荐指数

1
解决办法

1396
查看次数