如何从文件(例如 pdf)中删除所有元数据?

Suu*_*hgi 2 pdf metadata exif

出于隐私考虑,我想从文档中删除所有元数据(例如pdfjpgdocx等)。元数据通常是以某种方式与实际内容分开存储的附加信息,例如:

  • 使用过的软件
  • 使用的操作系统
  • 时间和地点
  • 相机型号、二手装备……(照片见Exif

如何可靠地从我的pdfjpgdocx等文件中删除所有元数据?

Suu*_*hgi 5

看看MAT元数据匿名化工具包)!它来自TOR 人,作为Tails 的标准——一个注重隐私和匿名的实时操作系统。

由于它是 的一种包装器exiftool,因此它支持更多的文件格式exiftool

到目前为止,他们是:

  • 便携式网络图形 (.png)
  • JPEG (.jpg, .jpeg, ...)
  • TIFF (.tif, tiff, ...)
  • 打开文档(.odt、.odx、.ods、...)
  • Office OpenXml(.docx、.pptx、.xlsx、...)
  • 便携式文档文件格式 (.pdf)
  • 磁带档案 (.tar, .tar.bz2, ...)
  • MPEG 音频(.mp3、.mp2、.mp1、...)
  • Ogg Vorbis (.ogg, ...)
  • 免费无损音频编解码器 (.flac)
  • 洪流 (.torrent)

有关更多详细信息,请查看这篇论文。

谨防

“垫只能从文件中删除元数据标准,它不是

  • 匿名他们的内容
  • 处理水印
  • 处理隐写术
  • 任何过度定制的元数据字段/系统 (?jpg,zip)

如果您真的想匿名,请使用不包含任何元数据的格式,或者更好:使用纯文本。

最重要的是,要小心:每种格式都可以加水印,甚至是纯文本(例如 SNOW 项目)!

您也可以打印一份文件副本,重新扫描,然后将其传递给 MAT;但要小心安全地切碎打印输出,不要在打印机/扫描仪的内存中留下痕迹。” (取自MAT 网站

JPEG格式

注释和标准的 Exif-/IPTC-/XMP 标签正在被删除。可能有专有的非标准标签(如 Canon Raw 标签)MAT 不接触。这些可以包含在例如专有 RAW 中?JPEG 转换工具。

压缩

MAT 不会改变存档的内容。如果工具在存档中创建包含元数据的其他文件,则不会触及它们。

安装

Ubuntu 12.10 及以上

从 Ubuntu 12.10 开始,它位于标准存储库Universe 中

sudo apt 安装垫

Ubuntu 12.10以下

对于旧版本的 Ubuntu,必须手动安装。依赖项是:

  • gir1.2-poppler-0.18
  • libimage-exiftool-perl(宇宙)
  • 蟒蛇2.7
  • python-gi-开罗
  • 蟒蛇诱变剂
  • python-pdfrw(宇宙)

通过以下方式安装它们:

sudo apt-get install gir1.2-poppler-0.18 libimage-exiftool-perl python2.7 python-gi-cairo python-mutagen python-pdfrw
Run Code Online (Sandbox Code Playgroud)

然后在这里获取 MAT (例如 mat-0.6.1.tar.xz)。如果您想使用GnuPG验证您的下载,请同时获取 .asc 文件。

要检查它,请导入页面底部给出的密钥,例如通过

gpg --search-keys 0x04D041E8171901CC
Run Code Online (Sandbox Code Playgroud)

并检查:

gpg --verify mat-0.6.1.tar.xz.asc  mat-0.6.1.tar.xz
Run Code Online (Sandbox Code Playgroud)

输出应该是这样的

gpg: Signature made Sun 03 Jan 2016 09:02:29 PM CET using RSA key ID 171901CC
gpg: Good signature from "Julien (jvoisin) Voisin <julien.voisin@dustri.org>" [unknown]
gpg:                 aka "Julien (jvoisin) Voisin <jvoisin@riseup.net>" [unknown]
gpg:                 aka "Julien (jvoisin) Voisin <jvoisin@openmailbox.net>" [unknown]
gpg: WARNING: This key is not certified with a trusted signature!
gpg:          There is no indication that the signature belongs to the owner.
Primary key fingerprint: 9FCD EE9E 1A38 1F31 1EA6  2A74 04D0 41E8 1719 01CC
Run Code Online (Sandbox Code Playgroud)

提取并安装通过

tar xvfJ mat-0.6.1.tar.xz
cd mat-0.6.1
sudo python2 setup.py install
Run Code Online (Sandbox Code Playgroud)

Debian 用户在testing -repo 中找到它,Arch 用户在AUR 中找到它。

如果一切顺利,您就有了控制台工具mat和 gui mat-gui