使用python pdfminer提取整个pdf数据

Question

我正在使用pdfminer使用python从pdf文件中提取数据.我想提取pdf中存在的所有数据,无论它是图像,文本还是其他任何内容.我们可以在一行(或两个,如果需要,没有太多工作)这样做.任何帮助表示赞赏.提前致谢

Answer 1

我们可以在一行(或两个,如果需要,没有太多工作)这样做.

你不能.Pdfminer很强大,但它的水平相当低.

不幸的是,文档并不完全详尽.由于Denis Papathanasiou的一些代码,我能够找到自己的方式.代码在他的博客中讨论,您可以在这里找到源代码:layout_scanner.py

另见这个答案,我在这里给出更多细节.