我正在使用pdfminer使用python从pdf文件中提取数据.我想提取pdf中存在的所有数据,无论它是图像,文本还是其他任何内容.我们可以在一行(或两个,如果需要,没有太多工作)这样做.任何帮助表示赞赏.提前致谢
我们可以在一行(或两个,如果需要,没有太多工作)这样做.
你不能.Pdfminer很强大,但它的水平相当低.
不幸的是,文档并不完全详尽.由于Denis Papathanasiou的一些代码,我能够找到自己的方式.代码在他的博客中讨论,您可以在这里找到源代码:layout_scanner.py
另见这个答案,我在这里给出更多细节.
归档时间: |
|
查看次数: |
9803 次 |
最近记录: |