相关疑难解决方法(0)

如何区分数字创建的 PDF 和可搜索的 PDF？

我目前正在分析一组 PDF 文件。我想知道有多少 PDF 文件属于这 3 个类别：

数字创建的 PDF：文本在那里（可复制）并且保证是正确的，因为它是直接从 Word 创建的
纯图像 PDF：扫描文档
可搜索 PDF：扫描文档，但使用了 OCR 引擎。OCR 引擎将文本放在图像“下方”，以便您可以搜索/复制内容。由于 OCR 非常好，大多数情况下这是正确的。但不能保证它是正确的。

由于每个 PDF 都包含文本，因此很容易识别我的域中的纯图像 PDF。如果我不能提取任何文本，它只是图像。但是我怎么知道它是“只是”一个可搜索的 PDF 还是一个数字创建的 PDF？

顺便说一句，这并不像我看到生产者字段显示“Microsoft Word”的扫描文档那样只看生产者那么简单。

注意：作为一个人，这很容易。我只是放大文本。如果我看到像素，它“只是”可搜索的。

以下是用于测试解决方案的 3 个示例 PDF 文件：

数字创建的PDF
扫描的 PDF：嗯.. 不是真的；我使用脚本创建图像，然后将它们组合成 PDF。但这仅意味着质量非常好。它应该与扫描非常相似。
可搜索的PDF

我尝试/想到的

使用创建者/制作者：我在扫描的文档中看到“Microsoft Word”。这也会很乏味。
嵌入字体：您可以提取嵌入字体。这个想法是扫描的文档不会嵌入字体而只使用默认字体。这个想法是错误的，从这个例子可以看出。

python pdf

Mar*_*oma

2020 08-20

8
推荐指数

1
解决办法

871
查看次数

PDF:如何覆盖/修复扫描图像+ OCR文件中的可搜索文本？

我正在尝试在PDF文件上创建一个索引,我将其作为旧原始手稿中的图像进行扫描,然后在Adobe Acrobat Pro中进行字符识别.问题是有些词语间隔很滑,所以OCR最终会出现漏洞.我使用了查找和修复嫌疑人工具,但仍然存在问题.

举个例子......

文本" FOR EXAMPLE "在原始文档(当然是其图像)中间隔得很有趣,因此Adobe将其作为三个单词" FOR EX AMPLE " 读取,然后导致单词" ample " 的索引条目看起来完全有效如果我不知道更好.这是我到目前为止所识别的文档中的几个类似问题之一(还有更多要校对的页面).

如何修复底层OCR文本,使其在创建的索引和搜索文档时都包含正确的信息.

PS:我不能只是切换到文档的纯OCR文本版本,因为稿件是技术性的,并且有大量与文本相关的图纸.我需要保留图像并更改下面的"隐藏"可搜索文本.

pdf adobe acrobat edit

O.M*_*.Y.

2018 03-26

6
推荐指数

1
解决办法

302
查看次数