如何使用python替换/删除pdf中的文本?

Wal*_*ace 8 python pdf python-3.x

我有隐藏pdf部分的代码(仅用白色多边形覆盖),但是问题是,文本仍然存在,如果您按ctrl-f,仍然可以找到它。

我的目标是实际从pdf本身删除文本。使用pdfminer,我设法从pdf中提取了文本,但我不知道是否有可能仅用一些空白来“替换”文本。使用python这样的事情可能吗?仅仅提取是不够的。我需要将文本从PDF中删除

Ale*_*lby 0

这是一种内存密集型操作,但您可以复制除要删除的部分之外的 pdf 其余部分,然后使用不包含您要删除的部分的新版本覆盖该文件。您可以使用 PyPDF 检索内容流并查找并删除相关部分来执行此操作。

PyPDF 文档https://pythonhosted.org/PyPDF2/PageObject.html?highlight=getcontents#PyPDF2.pdf.PageObject.getContents

PDF 标准https://www.adobe.com/content/dam/acom/en/devnet/pdf/pdfs/PDF32000_2008.pdf第 78 页、第 81 页;