为了摆脱每天收到的所有纸张杂乱,去年我开始扫描和 ORC 所有重要文件。我在 Vista 上使用 Windows 桌面搜索来索引我保存所有这些扫描文档的“管理”文件夹,以便能够在需要时快速检索它们。
我最近升级到了 Windows 7 RTM(我通过我大学的 MSDN-AA 频道获得了 x64 Pro 版本)。从那时起,PDF 的内容似乎不再编入索引。
例如,我的 GTX260 显卡有保修。在 PDF 中,使用 Acrobat Reader,我可以搜索字符串“GTX260”并找到相关行。但是,如果我在包含 PDF 的文件夹中执行相同的搜索,则找不到任何内容。
我检查了索引选项,该文件夹应该被索引。
有没有办法从PDF文件中提取字体?
我知道通常在 PDF 文件中嵌入的字体只是字体的子集。无论如何,有没有办法做到这一点?
制作 7zip 文件时要使用哪些设置以获得最大压缩率?我正在压缩包含扫描图像的 PDF 文档。我正在考虑使用 LZMA2,但我不知道在字典大小、字大小等中设置什么。另外,LZMA 或 PPMd 会是更好的选择吗?
我需要通过网络传输一些文件(~200MiB),这里的上传速度非常慢,所以我想尽可能地压缩数据。消耗的 CPU 时间不是很重要。
编辑
这是我在测试各种压缩方法后得到的结果:
未压缩大小为:25,462,686B
我的处理器是 Intel Core 2 Due T8100,我有 4GiB 的内存。
最好的压缩是使用 PeaZip 使用 PAQ8O 算法。结果文件大小为 19,994,325B。使用的设置是压缩级别:最大。不幸的是,压缩速度大约为 5KiB/s,因此压缩数据需要 1 个小时以上。
接下来是实验性的 PAQ9O 压缩机。使用它,我在大约 3 分钟的压缩中得到了 20,132,660B。不幸的是,程序只是命令行,没有多少其他程序使用这种压缩算法。它还使用大约 1.5GiB 的 RAM 和我使用的设置(a -9 -c)
之后是使用 LZMA2 的 7-Zip 9.15 beta (2010-06-20)。使用它,我在大约 3 分钟内得到了 20,518,802B。使用的设置是字大小 273,字典大小 64MB,我使用 2 个线程进行压缩。
现在回到我最初的问题:在我的情况下,实体块大小没有产生任何明显的结果。增加字数确实产生了一些结果。最大字长和最小字长之间的差异是 115,260B。我相信这样的节省确实证明了进行两次必要的点击和更改字号所需的努力是合理的。
我尝试使用 7zip 和 PeaZip 支持的其他压缩算法,它们生成的文件大小从 19.8MiB 到 21.5MiB。
最后,我的结论是,在压缩主要包含图像的 PDF 文档时,使用奇异压缩算法所需的努力是不合理的。在 7zip 中使用 LZMA2 压缩在最短的时间内产生了相当可接受的结果。
我如何需要更改inkscape 文件中的透明对象才能将它们正确导出为pdf?到目前为止,似乎默认设置使透明对象不可见或不透明。
如何打印 (PDF) 进行书籍装订?
这意味着,页面应该以复杂的方式重新排序并根据折叠和收集(分成部分或要求)适当地放置在纸张上?
更新
标准拼版选项不允许我需要什么。假设我想打印 500 页的书。我不能像往常一样每张纸只打印四页,因为 500 张纸不可能折叠两次。
所以,我需要将页面分成几个“部分”或“聚会”,就像这里

我有 4 个包含 3x3 图片的扫描文档。我在文件文件夹中运行
pdfjoin *
Run Code Online (Sandbox Code Playgroud)
我让一些页面自动旋转,以至于周围有很多空白。这很烦人。
4 个文件中的所有页面都正确旋转。文档只能通过连接在一起而不改变它们的旋转或添加空格。
如何在不旋转和不添加空格的情况下进行纯 pdfjoin?
LaTeX,因为您可以自动化,但仍有 5% 的图片仍在处理中,请参阅线程如果高度过高,如何旋转图像 90?您只需循环浏览图像并将其调整为文档;您还可以在那里进行裁剪、字幕等 - 这比任何终端方法与pdfjoin.
我希望能够简单地将 pdf 文件拖到正在编辑的 pdf 的页面资源管理器中。这没有任何效果,将文件拖到新页面上的工作区会导致如下结果:
我也试过“文件>插入”并选择pdf,这会导致错误提示“无法加载文件”。
我如何将 pdf 作为一个页面或一组页面插入我正在处理的 pdf 文档中?
我使用 Imagemagick convert 将 pdf 文件转换为 png,如下所示:
Magick convert -density 300 PointOnLine.pdf -quality 90 PointOnLine.png
Run Code Online (Sandbox Code Playgroud)
它发出警告:
convert: profile 'icc': 'RGB ': RGB color space not permitted on grayscale PNG `PointOnLine.png' @ warning/png.c/MagickPNGWarningHandler/1744.
Run Code Online (Sandbox Code Playgroud)
创建的 png 图像全黑。但是,转换为 jpg 图像很好。问题是什么?谢谢。
我们的一个供应商开始在我们从他们那里获得的 PDF 的最后一页添加一个不必要的巨大图像。我需要修剪掉这个。但是,我们有数百个,因此手动输入是禁止的。自动提取然后删除(最好是第一个,然后是另一个;我仍然需要通过文件大小确认我不会删除没有图像的)PDF 的最后一页的最佳方法是什么?操作系统是Linux。
我可以使用 ghostscript 提取它,其中的内容类似于gs -dFirstPage=5 -dLastPage=5,但我需要自动执行此操作,我无法通过手动找出最后一页的编号。
有任何想法吗?
编辑:为了澄清,我只想拆分/删除最后一页。不是其中的图像,请删除最后一页。
pdf ×10
linux ×2
64-bit ×1
7-zip ×1
color-theme ×1
compression ×1
conversion ×1
extract ×1
fonts ×1
imagemagick ×1
inkscape ×1
libreoffice ×1
printing ×1
search ×1
transparency ×1
windows ×1
windows-7 ×1