Ake*_*ten -2 python pdf python-3.x pypdf2
试图阅读议会的日常工作,我发现文件被分成许多PDF文件,不能简单地通过浏览器打开阅读,必须单独下载。我的基本想法是下载所有文档并提取所有决策的标题
以前的线程建议使用 PyPDF2。显然,这在我的情况下根本不起作用。PDF 中的字符是希腊字母,因此编码可能与它有关。最重要的是,在文档的末尾,添加了一些图片(我不感兴趣)。
PyPDF2 有没有可能解决这个问题,还是我应该看看其他地方?
如果您只是在文本之后,则 PyPDF2似乎不支持 CMaps,因此,如果您尝试执行以下操作,则会得到垃圾:
from PyPDF2 import PdfFileReader
with open('document.pdf', 'rb') as fd:
pdf = PdfFileReader(fd)
p1 = pdf.getPage(0)
print(p1.extractText())
Run Code Online (Sandbox Code Playgroud)
有一个开放的拉取请求来解决这个问题。它没有被合并,但是如果你想要它,你可以把它拉出来,因为它看起来非常独立。
归档时间: |
|
查看次数: |
1507 次 |
最近记录: |