从pdf中删除一些图像和文本对象

ssh*_*sky 6 python pdf pypdf

我有一个带有图像和大量文本的pdf页面对象.

我想删除该图像并根据其内容删除一些文本对象.那就是我想获取所有文本对象的内容,如果满足条件则删除其中的一些内容.

我怎么能用PyPDF2做到这一点(文档很差)?或者是否有另一个允许这样做的图书馆?

谢谢

Rah*_*man 6

要使用 PyPDF2 从 PDF 文件中删除所有图像,您可以执行以下操作:

from PyPDF2 import PdfFileWriter, PdfFileReader

inputStream = open("src.pdf", "rb")
outputStream = open("dst.pdf", "wb")

src = PdfFileReader(inputStream)
output = PdfFileWriter()

[output.addPage(src.getPage(i)) for i in range(src.getNumPages())]
output.removeImages()

output.write(outputStream)

Run Code Online (Sandbox Code Playgroud)

  • 这里应该非常小心,“output.removeImages()”删除的不仅仅是图像...... (8认同)