如何使用python替换/删除pdf中的文本？

Question

我有隐藏pdf部分的代码（仅用白色多边形覆盖），但是问题是，文本仍然存在，如果您按ctrl-f，仍然可以找到它。

我的目标是实际从pdf本身删除文本。使用pdfminer，我设法从pdf中提取了文本，但我不知道是否有可能仅用一些空白来“替换”文本。使用python这样的事情可能吗？仅仅提取是不够的。我需要将文本从PDF中删除

Answer 1

这是一种内存密集型操作，但您可以复制除要删除的部分之外的 pdf 其余部分，然后使用不包含您要删除的部分的新版本覆盖该文件。您可以使用 PyPDF 检索内容流并查找并删除相关部分来执行此操作。