如何在保留文本的同时删除 PDF 文档扫描的灰度页面背景?(二值化)

Rag*_*u G 11 pdf software-recommendation image-processing

我的 PDF 包含 600 页的文本图像。它有2 层

  • 第 1 层:背景彩色图像

  • 第 2 层:文本图像

我想删除整个 PDF 文件中的所有背景图像层,如图所示。

在此处输入图片说明

你能给我推荐任何软件/工具吗?

在此处输入图片说明

Glu*_*ate 9

概述

您正在寻找的是Scan Tailorunpaper等能够进行阈值处理去斑和降噪的工具。这两种工具都适用于图像而不是 PDF 文件,但您可以使用本答案末尾描述的工具轻松地在这些应用程序使用的不同格式和 PDF 之间进行转换。

扫描裁缝

您可以在此处找到视频教程。官方 wiki上提供了更广泛的文档。您可能对黑白输出模式和过滤器设置页面最感兴趣。

无纸化

我还没有和unpaper自己合作过。据我所知,它比 ScanTailor 具有更多的功能,但也更难掌握。

没有 GUI 界面,您将不得不依靠命令行开关来完成您的工作。另一方面,这意味着unpaper可以使用脚本轻松自动进行转换。

您可以在此处找到一些有关将扫描件转换为黑白和去除背景的脚本示例。


使用 unpaper 和 ScanTailer 时的一些有用工具

我没有足够的时间来编写关于 ScanTailor 和 unpaper¹ 的完整教程,但这里有一些关于在.pdf这些工具支持的图像格式之间进行转换的提示:

安装

此命令将安装上述所有工具:

sudo apt-get install scantailor unpaper poppler-utils libtiff-tools
Run Code Online (Sandbox Code Playgroud)

¹:对于阅读本文的任何人,请随时根据 ScanTailor 和/或无纸化编译更广泛的答案。


Noa*_*oam 5

我刚刚找到了一个非常简单的解决方案:

  • 安装gscan2pdf

  • 打开gscan2pdf,然后导入 PDF。

  • 工具->阈值。默认的 80% 对我来说效果很好。

  • 将 PDF 保存在另一个位置。


Pre*_*ero 0

也许Master PDF editor可以帮助你,尽管我还没有找到在 600 页上自动执行此操作的方法。