PDF 中的模糊文本

use*_*895 22 pdf ocr

我有一个文本模糊的pdf。文本本身是可读的，但会造成很大的压力。
这是文本的一个例子。

有没有办法清除它？

这是一个光栅层，不幸的是，它也包含文本。可以说，修复此类 PDF 的最简单方法是使用ABBYY FineReader（商业版，适用于 Windows、Linux、Mac OS）。根据所需的场景加载和处理 PDF 或图像文件。例如，这里我们并不真正需要预处理，并且在为文档选择英语语言后 OCR 效果很好：

保存已识别的文档时，请确保在保存模式部分选择仅文本和图片：

这将产生带有矢量字体的“干净”PDF，这些字体可在没有像素化的情况下进行缩放：

或者，您也可以使用其他免费和开源的 OCR 工具，例如tesseract / Capture2Text / NAPS2，并使用LibreOffice Writer / LaTeX使用已识别的文本创建新的 PDF。

文本已被光栅化 - 变成了“点”。

它应该仍然是矢量 - 使用实时绘制到屏幕上的实际字体。

这可能是因为文档被扫描并且实际上只是一张照片，或者因为在其历史记录中的某个时间点缺少预期的字体。

唯一真正的解决方法是找到一个 OCR（光学字符识别）应用程序并重新扫描它。

造成模糊的原因还有另一种可能：过滤层放置在扫描的栅格层上方。

几年前，我在一个网络中有文档扫描仪的地方工作。您扫描了您的资料，然后扫描仪通过电子邮件将副本发送给您 - 或者您可以将其直接发送到其他人的电子邮件地址。

有时，文本文档的扫描结果会非常模糊。作为最了解 IT 的人，我一直在弄清楚问题出在哪里。

结果证明，扫描仪错误地将文本识别为图片，并在其上方插入了一个过滤器，以减少由半色调图像的点和扫描仪的分辨率引起的莫尔效应。

您可以通过使用 PDF 编辑器删除文本上方的过滤层来修复那些模糊的文本扫描。

我从来没有弄清楚为什么有些扫描有过滤器而有些没有。半色调识别算法中的一些错误或边缘情况 - 谁知道。

您的模糊可能不是由过滤器引起的，但需要记住。

归档时间：	5 年，1 月前
查看次数：	6580 次
最近记录：	5 年，1 月前

下载网页中的所有 PDF 链接？ 27

在 Windows 10 中编辑“打开方式”菜单 27

如何将 Microsoft Print 生成的文件大小缩小为 PDF？ 12

具有夜间模式的 Windows pdf 阅读器？ 7

pdftk 没有输出 7

Acrobat TrimBox 和 ArtBox 错误？ 5

具有类似“网络浏览器”的导航功能的 PDF 查看器推荐 4

在 Linux 中从 PDF 中删除嵌入的功能 4

如何手动调用firefox内置pdf查看器（pdf.js）？ 4

PGF 隐藏在不兼容的 Adobe Illustrator 文件中的什么位置？ 1

“目录连接”与“目录符号链接”？ 489

如何在 Windows 7 上搜索内部文件？ 253

如何将 Github 风味的 Markdown 转换为 PDF 204

鉴于PNG具有压缩参数，它如何无损？ 164

递归删除Windows中的空目录 118

如何在美国版 Excel 中打开以分号分隔的 CSV 文件 112

在哪里上传PGP公钥？KeyServers 还存在吗？ 111

从磁盘手动重新加载文件的快捷方式 109

使用 sudo scp 到远程服务器 103

OS X Mountain Lion 上的 SVN 在哪里？ 98