PyPDF2 有哪些用于管理 PDF 文件的替代方案？

Question

试图阅读议会的日常工作，我发现文件被分成许多PDF文件，不能简单地通过浏览器打开阅读，必须单独下载。我的基本想法是下载所有文档并提取所有决策的标题

以前的线程建议使用 PyPDF2。显然，这在我的情况下根本不起作用。PDF 中的字符是希腊字母，因此编码可能与它有关。最重要的是，在文档的末尾，添加了一些图片（我不感兴趣）。

PyPDF2 有没有可能解决这个问题，还是我应该看看其他地方？

Answer 1

如果您只是在文本之后，则 PyPDF2似乎不支持 CMaps，因此，如果您尝试执行以下操作，则会得到垃圾：

from PyPDF2 import PdfFileReader

with open('document.pdf', 'rb') as fd:
  pdf = PdfFileReader(fd)
  p1 = pdf.getPage(0)
  print(p1.extractText())

有一个开放的拉取请求来解决这个问题。它没有被合并，但是如果你想要它，你可以把它拉出来，因为它看起来非常独立。

@Massimo PyPDF2 看起来有点无人维护，你可以尝试另一个 fork。[PyPDF4](https://github.com/claird/PyPDF4) 看起来更好，但仍然有些缺乏维护。你甚至可以尝试[最近的分支](https://github.com/claird/PyPDF4/network)之一。向活跃的维护者提交更新的补丁是最好的选择 (3认同)