如何创建带有扫描页面但可选择文本的 PDF？

Question

如何创建带有扫描页面但可选择文本的 PDF？

Voj*_*nal 33 pdf adobe-reader ocr adobe-acrobat

今天，我从我们的供应商那里收到了一份 PDF，其中包含几页带有签名等的打印和扫描页面。我在 Acrobat Reader DC 中打开了它。但令我惊讶的是，可以从明显扫描的图像中选择文本并将其复制为文本。看截图：

这背后显然有一些 OCR，因为复制的文本包含错误。但这怎么可能呢？我以前从未见过这个，这怎么可能创建？

Answer 1

Dam*_*mon 53

这（与此处的其他一些答案相反）很可能与 Acrobat 完全无关。

当您选择“另存为 PDF”并在设置中勾选“可搜索”复选框时，大多数（全部？！）专业文档扫描仪和大多数半专业文档扫描仪将自动执行 OCR。更便宜的“消费级”型号将在连接的 PC 上执行 OCR，典型的网络扫描仪在内部执行。

“可搜索”一词仅表示扫描仪将执行 OCR，然后生成包含扫描位图的页面，并用 OCR 中的不可见字符覆盖它们，每个字符都放置在位图上的相应字符上。

这样，您就可以像魔法一样搜索、选择、复制和粘贴“位图”。然而，这根本不是魔法。实际上，您只是在复制不可见的文本。

扫描仪还可以做一些额外的魔术，例如从许多同样重复使用的小图块合成大图像。这会导致比实际可能的文档大小小得多，但也可能导致有趣的意外（如果它们发生在你身上，那就不是那么有趣了！）例如施乐改变你的账单故事，具有讽刺意味的是，即使没有完成 OCR，也取决于在固件上。

Answer 2

And*_*tto 11

但这怎么可能呢？

基本上，程序对输入文件执行 OCR，然后在图片上放置一个不可见的文本层。或者，它也可能在图片下方放置一个可见的文本层，从而产生相同的效果。

当您选择某些内容时，图片无关紧要，因为文本图层已被选中。

这怎么可能创建？

有几种方法。鉴于已经建议使用 Acrobat，我将添加一些免费选项（幸运的是，您不会被迫让 Windows 使用它们）。

PDF-XChange 查看器

这是Tracker Software的原生 Windows 程序。如果您在 32 位前缀中使用 32 位版本，则免费软件版本在 Wine 下运行良好，因此您可以在 Windows、macOS 和 Linux 上使用它。在后两种情况下，您分别需要 PlayOnMac 或 PlayOnLinux。

这是我在 Ask Ubuntu 上留下的这个答案的图片：

OCRmyPDF

这是一个用 Python 编写的多平台程序，基于 Ghostscript、Tesseract 和 Unpaper。从文档：

OCRmyPDF 的作用

OCRmyPDF 分析 PDF 的每一页，以确定在不丢失内容的情况下捕获该页面上的所有信息所需的色彩空间和分辨率 (DPI)。它使用 Ghostscript 对页面进行光栅化，然后对光栅化图像执行 OCR 以创建 OCR “层”。然后将该图层嫁接到原始 PDF 上。

它可以轻松安装在 Debian 和 Ubuntu 衍生产品上：

apt-get install ocrmypdf

Run Code Online (Sandbox Code Playgroud)

或者在 macOS 上：

brew tap jbarlow83/ocrmypdf
brew install ocrmypdf

Run Code Online (Sandbox Code Playgroud)

在 Windows 上，您需要使用 Docker 映像。有关详细信息，请参阅官方文档。

用法非常简单，我建议您使用可选的-d(deskew) 和-c(clean) 参数以获得更好的结果。在运行 OCR 过程之前，它将拉直每一页并清理小点/缺陷。

您可以（并且应该）为语言提供-l.

这是从这个用意大利语编写的倾斜文档中获取的示例：

我使用的命令是：

ocrmypdf -l ita -d -c input.pdf output.pdf

Run Code Online (Sandbox Code Playgroud)

在线工具

有一些在线工具可以做同样的事情。值得注意的是，PDF24 拥有一个免费的基于网络的 OCRmyPDF 版本，可以不受限制地使用。

也可以看看：

归档时间：	7 年，9 月前
查看次数：	9555 次
最近记录：	4 年，8 月前