从pdf中删除文本

DrY*_*Yap 15 linux pdf pdftk pdfedit

我有一个 pdf 文件,每页都有一些我想删除的文本。

文本与正则表达式匹配,我认为它位于 pdf 的一个块中。

我已经使用 pdfedit 通过 GUI 选择和删除文本,但我正在寻找一种从终端执行此操作的方法。

Mar*_*iae 10

您可以尝试pdftk,但由于(我相信)字体问题,它只能在一小部分时间内工作。

它是这样工作的:首先你需要解压缩pdf文件,

  pdftk myfile.pdf output unc.pdf uncompress
Run Code Online (Sandbox Code Playgroud)

然后你修改它

  sed 's/oldstring/newstring/g' < unc.pdf > mod_unc.pdf
Run Code Online (Sandbox Code Playgroud)

最后你重新压缩它

 pdftk mod_unc.pdf output myfile_modified.pdf compress
Run Code Online (Sandbox Code Playgroud)

我用这个命令只取得了中等程度的成功,从某种意义上说,根据它的突发奇想,有时它起作用,有时不起作用。

  • 也可以使用`qpdf`:`qpdf --stream-data=uncompress myfile.pdf unc.pdf`。 (2认同)