PyPDF2.errors.PdfReadError:PDF 以“??”开头,但应为“%PDF-”

Sej*_*jAC 4 python pdf pypdf

我有一个包含很多子文件夹的文件夹,里面有PDF文件。在这些文件中查找信息真是一团糟,所以我正在编写一个程序来解析这些文件夹和文件,在 PDF 文件中搜索关键字,并返回包含该关键字的 PDF 文件的名称。

\n

它正在发挥作用。事实上,差不多了。

\n

我遇到此错误:PyPDF2.errors.PdfReadError: PDF starts with '\xe2\x99\xa3\xe2\x96\xac', but '%PDF-' expected当我的程序到达某些文件夹时(很难知道到底是哪一个)。从我的角度来看,我的文件夹中的所有 PDF 文件都是相同的,所以我不明白为什么我的程序可以处理某些文件而不能处理其他文件。

\n

预先感谢您的回复。

\n

Mar*_*oma 7

PdfFileReader已弃用。PdfReader代替使用!(来源

PdfFileReader 有一个strict属性。用它:

reader = PdfFileReader("example.pdf", strict=False)
Run Code Online (Sandbox Code Playgroud)

PdfReader 与 PdfFileReader 相同,但默认情况下它具有strict=False. 大多数人都想要strict=False。在下一个主要版本中,我将从 PyPDF2 中删除 PdfFileReader,转而使用 PdfReader。

如果您仍然遇到问题,请在 Github 上打开问题 - 但前提是您可以分享导致问题的 pdf+代码: https: //github.com/py-pdf/PyPDF2