快速PDF分割器库

Nat*_*han 6 c python pdf pypdf

pyPdf是一个很好的库,可以拆分,合并PDF文件.我用它将pdf文档分成1页文档.pyPdf是纯python,在保存提取的页面时,在PdfFileWriter对象的_sweepIndirectReferences()方法中花费了大量的时间.我需要一些性能更好的东西.我尝试过使用多线程,但由于大部分时间花在python代码上,因为GIL没有速度增加(实际上运行速度较慢).

是否有用c编写的库提供相同的功能?或者是否有人对如何提高性能有很好的了解(除了为每个我要拆分的pdf文件生成一个新进程)

先感谢您.

跟进.链接到几个命令行解决方案,有时可以证明比pyPDF更快:

我修改了pyPDF PdfWriter类来跟踪_sweepIndirectReferences()方法花了多少时间.如果它太长了(现在我使用3秒的魔法值)然后我通过从python调用它来恢复使用ghostscript.

谢谢你的所有答案.(codelogic的xpdf参考是让我寻找不同方法的参考)

cod*_*gic 4

mbtPdfAsm是一个用于 PDF 处理的快速开源命令行工具。

Xpdf也值得一提,因为它是 GPL 并用 C++ 编写。源代码模块化良好,允许编写命令行工具。