我需要将 PDF 页面转换为图像。我的文件中有一个带有一些文本的背景图像,当我将其另存为图像时,只有背景图像会被保存。
是否有任何可用的软件可以将完整的页面转换为图像?
我通常有两个需求:
场景 A.更改单个 PDF 页面。
在这种情况下,我有一个 PDF,但没有用于创建 PDF 的原始源文件。我不想尝试从头开始重新创建文档。我想打开 PDF 并更改一些内容。这种情况的一个很好的例子:我负责在露营地规划一个大型活动,我有一个该网站的 PDF。我想从那个文档开始,突出显示一些部分,添加一些标签,删除一些不相关的部分。
或者
场景 B.合并 PDF 或从 PDF 中提取页面
这种情况通常会出现,因为我想要一个由最好在不同程序中创建的部分组成的单个 PDF 可交付成果。在这种情况下,我拥有所有文档的源文件,但它们不能很好地协同工作,无法轻松创建单个 PDF 可交付成果。对于其中的一部分,我可能想使用 Libre Office Writer。对于另一个页面,我可能想使用 Gimp。还有一个页面我可能会使用 Libre Office Calc。我可以使用 Writer 作为主文档并将图像或 Calc 对象嵌入其中,但为了最终控制,您无法击败然后合并的单独 PDF 文档。
在 Ubuntu 中编辑 PDF 的最佳工具/流程是什么?
我最近不得不打印几个 PDF 发送给某人,但我想编辑(涂黑)一些小文本。
一个快速的谷歌搜索没有找到任何用于这个特定目的的工具,所以我又回到了 imagemagick & gimp:
convert document.pdf document.pnggimp document-0.png这种策略的问题在于转换过程(从 PDF 到 PNG 或任何其他格式)会降低质量。我尝试在 gimp 中编辑 PDF,但它没有立即起作用。
是否有允许以这种方式进行编辑的特定工具?(它甚至不需要是“真正的”修订——我不会发送软拷贝,所以“假”修订将起作用,因为硬拷贝不能被黑客入侵以显示底层文本。)
或者,是否有能够在 gimp 中编辑 PDF 的技巧?
我有许多 pdf 格式的扫描文档,我希望能够搜索它们。我怎样才能做到这一点?
本质上,我必须对 pdf 进行 OCR,然后将提取的文本混合回新的 pdf。我尝试了许多不同的解决方案(包括将 OCR 信息添加到 PDF 中找到的解决方案),但均未成功。
是否有我不知道的软件包?或执行此操作的脚本?
我有一个 pdf 目录,是客户以 pdf 格式提供给我的。他们没有图像,但它们在pdf中。
有没有办法使用命令行工具从 pdf 中提取所有图像,同时保留其原始文件名?
我在这里回顾了这个问题:使用图层蒙版从 PDF 中提取图像, 但它适用于单个图像。
我有一些 PDF 文件,我想使用它们拆分成 TIFF 文件convert(以便通过 进行 OCR tesseract)。到目前为止,这工作得很好 - 除了为了自动化整个过程,我需要设置convert输出的 DPI 。现在,我正在使用这样的命令:
convert -density 300 myFile.pdf -depth 8 -background white output-%04d.tiff
...以 300 DPI 输出 PDF 文件。但是,某些 PDF 文件的DPI较低(例如 150 DPI),这意味着我不想通过 300 DPI 输出它们convert- 这会创建过大的 TIFF 文件而没有任何附加信息。
我知道有一些方法可以通过打开 Adobe Acrobat 并在“预检”工具中乱搞来检查 PDF 文件中图像的 DPI。但是,有没有办法通过命令行确定特定 PDF 文件的 DPI?