相关疑难解决方法(0)

从 PDF 中提取嵌入的图像

在开始使用 Ubuntu 之前,我使用 Nitro PDF 阅读器自动从 PDF 文件中提取图像。是否有适用于 Linux 的 PDF 阅读器可以执行此操作?

我希望能够比拍摄快照更快/更容易地提取图像。

pdf software-recommendation

211
推荐指数
5
解决办法
12万
查看次数

最好、最简单的 OCR 解决方案是什么?

我想以最少的麻烦扫描大量的文件。我想使用简单扫描将它们转换为图像,然后使用 OCR 将它们转换为文本。有没有一个很好的带有 GUI 的 OCR 应用程序,只需按一下按钮就可以给我很好的结果?

scanning software-recommendation ocr

85
推荐指数
6
解决办法
13万
查看次数

将 OCR 信息添加到 PDF

我对文档进行了高质量的扫描;这种扫描是pdf格式。

如何将 ocr 信息添加到 pdf 中,使其变得可搜索?通过可搜索,我的意思是目标是在使用 evince 查看 pdf 时,CTRL-F 实际上允许我在 pdf 内容中进行搜索。

pdf scanning ocr

31
推荐指数
3
解决办法
2万
查看次数

在扫描的 pdf 文件中的白色背景上获取打印机就绪的黑色文本(去除灰度或彩色背景)

如何将纸质文档的照片转换为扫描文档?是相关的,但不一样,因为我在谈论 pdf 文件。在链接问题下的答案中,图像处理似乎很复杂,尤其是因为它涉及单独处理每个图像:鉴于我的 pdf 有数百页,我期望的解决方案不是处理/编辑图像,而只是扫描数码照片并以真实的方式记录。我的意思是像“虚拟扫描仪”这样的东西,它的输入是基于照片的 pdf 或照片集,输出是“普通”扫描文档。(还有推荐的Scantailor工具 - 也在这里- 现在似乎缺少 Linux 版本。)


这是不是对OCR和有关转换图像文本。

为了澄清我的意思,我将发布一些示例。

基于 text而非图像的pdf 文件,它们是导出为 pdf 的文本文件(让我们使用 docx 或 odt)。它们看起来可以打印了:

在此处输入图片说明

以上不是我在这里讨论的。

我感兴趣的是下面图像中的pdf,即看起来太像图像的扫描文本页面和看起来像数字化文本的扫描文本页面之间的区别。

第一个是由看起来像书页照片的图像组成的:

在此处输入图片说明

或者

在此处输入图片说明

这样的副本很难在纸上重新打印,因为背景也会被打印出来。

第二个是人们对扫描文本的期望,可以打印:

在此处输入图片说明

或者

在此处输入图片说明

图片般的 pdf 可能已经经过 OCR 处理并且其文本可搜索,并且看起来仍然像(页面)照片的集合:OCR 不是这里的问题。

我想要的是“扫描”pdf 的清晰黑白外观,并删除照片中正常但应在打印页面中不存在的所有“真实”细节(尤其是阴影)。


正如@vanadium 在评论中注意到的那样,我正在寻找一种可以自动清理文档图片的软件解决方案,就像智能​​手机上的 Google Scan 一样

正如@user535733 在评论中所说,这里的问题至少在某种程度上似乎是将灰度(扫描/图像)文本转换为 black-and-white 的问题

pdf software-recommendation image-processing

5
推荐指数
1
解决办法
413
查看次数