如何从PDF文件中提取数据,同时跟踪其结构?

Mar*_*cel 21 pdf parsing extraction

我的目标是在解析其结构时从PDF文件中提取文本和图像.解析结构的范围并非详尽无遗; 我只需要能够识别标题和段落.

我尝试了一些不同的东西,但我没有在其中任何一个方面走得太远:

  • 将PDF转换为文本.它对我不起作用,因为我丢失了图像和文档的结构.
  • 将PDF转换为HTML.我发现了一些帮助我的工具,目前为止最好的工具是pdftohtml.这个工具非常好用,但我还是无法成功解析HTML.
  • 将PDF转换为XML.与上述相同.

有人对如何解决这个问题有任何建议吗?

Dav*_*che 11

基本上没有一个简单的剪切和粘贴解决方案,因为PDF对结构并不是很感兴趣.这个网站上还有很多其他答案可以更详细地告诉你这些事情,但是这个答案应该给你一些要点:

如果识别PDF文档中的文本结构非常困难,那么PDF阅读器如何做得如此之好?

如果你想用PDF本身(你可以控制整个过程),你必须遍历页面上的所有文本并通过查看它们的文本属性来识别标题(使用的字体,相对于页面上的其他文字等...).

最重要的是,你还必须通过查看文本片段的位置,页面上的空白区域,某些字母,单词和行的接近程度来识别段落... PDF本身甚至没有一个概念"字",更别说"行"或"段落".

更复杂的是,在页面上绘制文本的方式(以及它在PDF文件本身中的显示顺序)甚至不必是正确的阅读顺序(或者我们人类认为适当的阅读顺序)阅读顺序).


Vai*_*and 5

PDF 解析标题及其子内容确实非常困难(这并不意味着它不可能),因为 PDF 有多种格式。但我最近遇到了名为GROBID的工具,它可以在这种情况下提供帮助。我知道它并不完美,但如果我们提供适当的培训,它可以实现我们的目标。

Grobid 在 github 上作为开源代码提供。

https://github.com/kermitt2/grobid