如何将多页 TIF 文件转换为 PDF?

use*_*220 11 pdf tiff conversion

我有一个很大的多页 TIF 图像文件。

几天前我扫描了一本书,不小心将其扫描为多页 TIF。我真的很想把它变成一个更容易访问的 PDF 文件。

你知道如何做到这一点吗?

mpy*_*mpy 20

如果您只需转换文件格式(不使文本可搜索(通过Jonathan Ben-Avraham 在回答中指出的 OCR )就可以了),这将是convert来自ImageMagick包的完美任务(适用于各种平台:Win , Linux, Mac). 安装时,请务必选择包含“转换”旧版实用程序的选项。

只需使用该命令来转换您的多页 TIFF 文件

convert multi-page.tif book.pdf
Run Code Online (Sandbox Code Playgroud)

但是,您应该使用-compress参数。如果您有 24 位彩色 TIF,则可以使用LZW(lossless) 或JPEG(lossy),例如

convert -compress LZW multi-page.tif book.pdf
Run Code Online (Sandbox Code Playgroud)

如果你的 TIFF 是黑白的(请确定,它真的只保存了 1 位色深),我通常使用-compress Fax.

这是一个 5 页示例文件的示例,其中包含一些文本——压缩算法之间的实际比率当然取决于文件的内容:

24bit JPEG:  1294kB
24bit LZW:   1759kB
1bit  Fax:    135kB
Run Code Online (Sandbox Code Playgroud)

转换之后,您仍然可以运行 OCR 工具(如 Adob​​e Acrobat Pro)来使文本搜索和复制。


Jon*_*ham 3

TIFF(标记图像文件格式)是一种面向像素的格式,适用于图像。为了从 TIFF 文件中获取字符数据,您必须使用 OCR(光学字符识别)程序。所有 OCR 程序都有一定的错误率。页面的格式(页眉、页脚、章节标题等)也会影响 OCR 准确猜测字符的能力。

语言,尤其是书写系统和字体也会影响 OCR 准确性。如果这本书有一种不寻常的非西方连字字体,那么获得良好 OCR 输出的机会接近于零。

如果这本书主要不是文本,例如,一本包含许多屏幕截图或其他重要图像的书,那么 OCR 将无法帮助您。

有一些开源 OCR 程序可用,具体取决于您使用的操作系统。Google Drive 有免费的 OCR 服务。WMMV。

假设您扫描的原始书籍是纸质格式,那么 TIFF 是您在任何情况下都可以做的最好的选择。您可以通过压缩 TIFF 文件使文档大小更易于管理。尝试使用不同压缩级别的 JPEG 压缩来优化文档大小和可读性。