Aak*_*asu 6 python pdf ocr extract python-3.6
搜索了很多,但由于我找不到此类问题的解决方案,因此在同一个问题上发布了一个明确的问题。大多数答案涵盖了相对容易的图像/文本提取。
我需要分别从 PDF 中提取表格和图形作为文本 (csv) 和图像。
任何人都可以用有效的python 3.6代码来帮助我解决这个问题吗?
到目前为止,我可以使用 startmark = b"\xff\xd8" 和 endmark = b"\xff\xd9" 实现提取 jpg,但并非 PDF 中的所有表格和图形都是普通的 jpg,因此我的代码无法实现这一目标。
例如,我想从第 11 页中提取表格,从第 12 页中提取图形作为图像或从下面给出的链接中可行的内容。怎么办?
https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf
要提取表格,您可以使用camelot
这是一篇关于它的文章。
对于图像,我找到了这个问题和答案Extract images from PDF without resampling, in python?