在扫描的 pdf 文件中的白色背景上获取打印机就绪的黑色文本(去除灰度或彩色背景)

cip*_*cus 5 pdf software-recommendation image-processing

如何将纸质文档的照片转换为扫描文档?是相关的,但不一样,因为我在谈论 pdf 文件。在链接问题下的答案中,图像处理似乎很复杂,尤其是因为它涉及单独处理每个图像:鉴于我的 pdf 有数百页,我期望的解决方案不是处理/编辑图像,而只是扫描数码照片并以真实的方式记录。我的意思是像“虚拟扫描仪”这样的东西,它的输入是基于照片的 pdf 或照片集,输出是“普通”扫描文档。(还有推荐的Scantailor工具 - 也在这里- 现在似乎缺少 Linux 版本。)


这是不是对OCR和有关转换图像文本。

为了澄清我的意思,我将发布一些示例。

基于 text而非图像的pdf 文件,它们是导出为 pdf 的文本文件(让我们使用 docx 或 odt)。它们看起来可以打印了:

在此处输入图片说明

以上不是我在这里讨论的。

我感兴趣的是下面图像中的pdf,即看起来太像图像的扫描文本页面和看起来像数字化文本的扫描文本页面之间的区别。

第一个是由看起来像书页照片的图像组成的:

在此处输入图片说明

或者

在此处输入图片说明

这样的副本很难在纸上重新打印,因为背景也会被打印出来。

第二个是人们对扫描文本的期望,可以打印:

在此处输入图片说明

或者

在此处输入图片说明

图片般的 pdf 可能已经经过 OCR 处理并且其文本可搜索,并且看起来仍然像(页面)照片的集合:OCR 不是这里的问题。

我想要的是“扫描”pdf 的清晰黑白外观,并删除照片中正常但应在打印页面中不存在的所有“真实”细节(尤其是阴影)。


正如@vanadium 在评论中注意到的那样,我正在寻找一种可以自动清理文档图片的软件解决方案,就像智能​​手机上的 Google Scan 一样

正如@user535733 在评论中所说,这里的问题至少在某种程度上似乎是将灰度(扫描/图像)文本转换为 black-and-white 的问题

pLu*_*umo 9

scantailor 不再维护,但您仍然可以从源代码构建并使用它。

但是,原始存储库需要qt4,在最近的 Ubuntu 版本中不容易安装。你可以使用例如这个已经适应的叉子qt5

先决条件:

sudo apt install libjpeg-dev zlib1g-dev libpng-dev libtiff-dev libboost-dev libxrender-dev libboost-all-dev
Run Code Online (Sandbox Code Playgroud)

安装:

git clone https://github.com/victl/scantailor
cd scantailor
cmake .
make
sudo make install
Run Code Online (Sandbox Code Playgroud)

免责声明:我不知道这个 fork 的维护者,也不能说他版本的安全性。


另一种选择是使用Scantailor advanced。您可以通过snap...安装它

sudo snap install scantailor-advanced
Run Code Online (Sandbox Code Playgroud)

... 或flatpak

...或通过ppa

sudo apt install libjpeg-dev zlib1g-dev libpng-dev libtiff-dev libboost-dev libxrender-dev libboost-all-dev
Run Code Online (Sandbox Code Playgroud)

快速测试:

在此处输入图片说明


归档时间:

查看次数:

413 次

最近记录:

4 年 前