在 Adobe Acrobat 中(如果重要的话,我使用的是 Pro DC),OCR 有三个选项:
这三个选项有什么区别?
特别是,什么决定了输出文件的大小?现在我一直在运行第一个和第三个选项,似乎有时一个更大,有时另一个更大(差异可能很大)。
OCR 处理的质量、文件大小和速度之间有什么(如果有)权衡?
Adobe 帮助文章 Scan a paper document to PDF,部分 Recognize Text - General Settings 对话框将扫描模式定义为:
可搜索图像
确保文本是可搜索和可选择的。此选项保留原始图像,根据需要对其进行校正,并在其上放置一个不可见的文本层。在同一个对话框中对图像下采样的选择决定了图像是否被下采样以及下采样到什么程度。
可搜索图像(精确)
确保文本是可搜索和可选择的。此选项保留原始图像并在其上放置一个不可见的文本层。推荐用于需要最大保真原始图像的情况。
可编辑的文本和图像
合成与原始字体非常接近的新自定义字体,并使用低分辨率副本保留页面背景。
下采样到
在 OCR 完成后减少彩色、灰度和单色图像中的像素数。选择要应用的下采样程度。编号较高的选项进行较少的下采样,生成更高分辨率的 PDF。
我将分析这些选项对输出文件大小的影响。
所有选项都保留图像,这可能是一个大对象。
Searchable Image旋转图像,这可能会改变其大小使其变大或变小,具体取决于 Adobe 内部使用的图像重新编码方法
Downsample To可以降低图像分辨率从而减小其大小,但是获得(或丢失)的空间量取决于 Adobe 内部使用的重新采样方法。
可编辑文本和图像合成一种新字体,然后将其包含在 PDF 中,并将向输出大小添加几十 K 字节。
总而言之,没有明确的方法可以创建最小的 PDF。增加(或减少)的数量取决于经过 OCR 处理的图像以及 Adobe 重新压缩它们的效率。
如果目的是节省空间,我建议使用Editable Text & Images,但如这篇 Adobe Acrobat 文章中所述,在设置中指定“使用可用的系统字体”,这可能会避免使用自定义字体。如果 OCR 文本足够,您也可以删除图像。
| 归档时间: |
|
| 查看次数: |
14226 次 |
| 最近记录: |