如何使用 Python 从 PDF 文件中提取图表/表格/图形?

Aak*_*asu 6 python pdf ocr extract python-3.6

搜索了很多,但由于我找不到此类问题的解决方案,因此在同一个问题上发布了一个明确的问题。大多数答案涵盖了相对容易的图像/文本提取。

我需要分别从 PDF 中提取表格和图形作为文本 (csv) 和图像。

任何人都可以用有效的python 3.6代码来帮助我解决这个问题吗?

到目前为止,我可以使用 startmark = b"\xff\xd8" 和 endmark = b"\xff\xd9" 实现提取 jpg,但并非 PDF 中的所有表格和图形都是普通的 jpg,因此我的代码无法实现这一目标。

例如,我想从第 11 页中提取表格,从第 12 页中提取图形作为图像或从下面给出的链接中可行的内容。怎么办?

https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf

mil*_*rod 1

要提取表格,您可以使用camelot

这是一篇关于它的文章

对于图像,我找到了这个问题和答案Extract images from PDF without resampling, in python?

  • 图像或多或少已经完成。但最大的挑战是这些图表不是图像,它们是文本、条形图、线条和轴的组合。我真的很高兴知道人们如何从高质量的 PDF 中解析出它们。 (4认同)