PyPDF2 的维护替代品

Pet*_*nek 10 python pdf pypdf2

我正在使用该PyPDF2库从 pdf 文档中提取文本、图像、页面宽度和高度、注释和其他属性。但是,该库有许多错误和问题,并且似乎已经很久没有维护了。

  • 有没有更生动的fork正在维护和开发?
  • 有没有好的替代方案?

据我所知,reportlab更适合创建全新的 pdf(或者我对 reportlab 的经验不够)。

Mar*_*oma 11

保留的三个潜在替代方案:

我不会使用:

  • PyPDF2 (未维护,2018 年最后一次提交)
  • PyPDF4 ( pypi ):2018 年 PyPI 上的最后一个版本

我不确定:

  • PyPDF3 ( pypi ):有最近的提交,PyPI 上的最新版本,但目前只有 27 个 GitHub 星,而且贡献者不多。很高兴看到那里的发展继续:-)

  • 要知道的一件事是,由于 mupdf 许可证,pymupdf 仅对开源免费 https://pymupdf.readthedocs.io/en/latest/intro.html#license (2认同)

Vis*_*ngh 5

\n

PyMuPDF是 MuPDF \xe2\x80\x93 的 Python 绑定,是一个轻量级 PDF 和 XPS 查看器。由于 MuPDF 不仅支持 PDF,还支持 XPS、OpenXPS、CBZ、CBR、FB2 和 EPUB 格式,因此 PyMuPDF 也支持。PyMuPDF 托管在GitHub上。我们也在PyPI上注册

\n
\n

其性能统计数据也非常有希望。以下三个部分涉及性能的不同方面:

\n
    \n
  • 文档解析
  • \n
  • 文本提取
  • \n
  • 图像渲染
  • \n
\n

PyMuPDF 比 pdfrw、PyPDF2 和 pdftk 更快。

\n