Rag*_*u G 11 pdf software-recommendation image-processing
我的 PDF 包含 600 页的文本图像。它有2 层。
第 1 层:背景彩色图像
第 2 层:文本图像
我想删除整个 PDF 文件中的所有背景图像层,如图所示。

你能给我推荐任何软件/工具吗?

概述
您正在寻找的是Scan Tailor和unpaper等能够进行阈值处理、去斑和降噪的工具。这两种工具都适用于图像而不是 PDF 文件,但您可以使用本答案末尾描述的工具轻松地在这些应用程序使用的不同格式和 PDF 之间进行转换。
扫描裁缝
您可以在此处找到视频教程。官方 wiki上提供了更广泛的文档。您可能对黑白输出模式和过滤器设置页面最感兴趣。
无纸化
我还没有和unpaper自己合作过。据我所知,它比 ScanTailor 具有更多的功能,但也更难掌握。
没有 GUI 界面,您将不得不依靠命令行开关来完成您的工作。另一方面,这意味着unpaper可以使用脚本轻松自动进行转换。
您可以在此处找到一些有关将扫描件转换为黑白和去除背景的脚本示例。
使用 unpaper 和 ScanTailer 时的一些有用工具
我没有足够的时间来编写关于 ScanTailor 和 unpaper¹ 的完整教程,但这里有一些关于在.pdf这些工具支持的图像格式之间进行转换的提示:
您可以使用pdfimages将 PDF 文档转换为单页.ppm文件,可以通过unpaper.
用法示例:
pdfimages *.pdf ./extracted-images
Run Code Online (Sandbox Code Playgroud)ScanTailor 不将.ppm文件作为输入。您必须.png先将它们转换为另一种格式,例如无损格式。mogrify出 imagemagick工具套件可以为您做到这一点。
用法示例:
mogrify -format png *.ppm
Run Code Online (Sandbox Code Playgroud)ScanTailor 和 unpaper 的输出格式是单页.tiff文件。为了将它们转换回.pdf我建议使用tiffcpand tiff2pdf。
用法示例:
tiffcp *.tiff all.tiff
tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
Run Code Online (Sandbox Code Playgroud)安装
此命令将安装上述所有工具:
sudo apt-get install scantailor unpaper poppler-utils libtiff-tools
Run Code Online (Sandbox Code Playgroud)
¹:对于阅读本文的任何人,请随时根据 ScanTailor 和/或无纸化编译更广泛的答案。
我刚刚找到了一个非常简单的解决方案:
安装gscan2pdf。
打开gscan2pdf,然后导入 PDF。
工具->阈值。默认的 80% 对我来说效果很好。
将 PDF 保存在另一个位置。
| 归档时间: |
|
| 查看次数: |
18721 次 |
| 最近记录: |