如何使用 Python 从 PDF 文件中提取图表/表格/图形？

Question

搜索了很多，但由于我找不到此类问题的解决方案，因此在同一个问题上发布了一个明确的问题。大多数答案涵盖了相对容易的图像/文本提取。

我需要分别从 PDF 中提取表格和图形作为文本 (csv) 和图像。

任何人都可以用有效的python 3.6代码来帮助我解决这个问题吗？

到目前为止，我可以使用 startmark = b"\xff\xd8" 和 endmark = b"\xff\xd9" 实现提取 jpg，但并非 PDF 中的所有表格和图形都是普通的 jpg，因此我的代码无法实现这一目标。

例如，我想从第 11 页中提取表格，从第 12 页中提取图形作为图像或从下面给出的链接中可行的内容。怎么办？

Answer 1

要提取表格，您可以使用camelot

这是一篇关于它的文章。

图像或多或少已经完成。但最大的挑战是这些图表不是图像，它们是文本、条形图、线条和轴的组合。我真的很高兴知道人们如何从高质量的 PDF 中解析出它们。 (4认同)