如何分析pdf文档中的空间使用情况?

ufo*_*tds 7 pdf ocr adobe-acrobat

我有这个 7mb pdf,是我用 65 张扫描的黑白图像制作的。OCR 后,文档变成 32mb。

我从未见过文字占据如此大的空间。(理论上 25mb 应该给我 2500 万个未压缩的字母)以纯文本格式保存我大约有 4KB/页 * 65 = +/- 280KB 的文本。

因为我制作了一个可搜索的图像,剩下的 32mb 用于定位?不太可能。

似乎有问题,我想看看 pdf 不同部分占用的空间,但我找不到任何似乎可以做到这一点的工具。

编辑:有关 pdf 的问题已解决。罪魁祸首是可搜索图像可搜索图像(精确)。它一定对一些图像进行了重新采样,使它们变得更大。仍然有兴趣回答这个问题。

小智 4

您正在寻找的工具是 Adob​​e Acrobat 中的审核空间使用情况工具。该工具将为您提供 PDF 中哪些组件影响文件大小的详细信息。

以下视频演示了如何查找审核空间使用情况工具。由于某种原因,Adobe 将其隐藏在 Acrobat 中。

该功能可以在“文件”>“另存为...”>“优化”>“审核空间使用情况”下找到。

  • 这是方法的一部分,不幸的是它只会说图像 98% 之类的东西,这还不能帮助您识别哪些图像消耗最多,以便更好地减少它们。 (2认同)
  • 要“确定哪些图像消耗最多”,您可以使用 `pdfimages -all input.pdf images` 和 `du -b images-* | 排序-n` (2认同)