and*_*isk 35
这是一个光栅层,不幸的是,它也包含文本。可以说,修复此类 PDF 的最简单方法是使用ABBYY FineReader(商业版,适用于 Windows、Linux、Mac OS)。根据所需的场景加载和处理 PDF 或图像文件。例如,这里我们并不真正需要预处理,并且在为文档选择英语语言后 OCR 效果很好:
保存已识别的文档时,请确保在保存模式部分选择仅文本和图片:
这将产生带有矢量字体的“干净”PDF,这些字体可在没有像素化的情况下进行缩放:
或者,您也可以使用其他免费和开源的 OCR 工具,例如tesseract / Capture2Text / NAPS2,并使用LibreOffice Writer / LaTeX使用已识别的文本创建新的 PDF。
Tet*_*jin 19
文本已被光栅化 - 变成了“点”。
它应该仍然是矢量 - 使用实时绘制到屏幕上的实际字体。
这可能是因为文档被扫描并且实际上只是一张照片,或者因为在其历史记录中的某个时间点缺少预期的字体。
唯一真正的解决方法是找到一个 OCR(光学字符识别)应用程序并重新扫描它。
造成模糊的原因还有另一种可能:过滤层放置在扫描的栅格层上方。
几年前,我在一个网络中有文档扫描仪的地方工作。您扫描了您的资料,然后扫描仪通过电子邮件将副本发送给您 - 或者您可以将其直接发送到其他人的电子邮件地址。
有时,文本文档的扫描结果会非常模糊。作为最了解 IT 的人,我一直在弄清楚问题出在哪里。
结果证明,扫描仪错误地将文本识别为图片,并在其上方插入了一个过滤器,以减少由半色调图像的点和扫描仪的分辨率引起的莫尔效应。
您可以通过使用 PDF 编辑器删除文本上方的过滤层来修复那些模糊的文本扫描。
我从来没有弄清楚为什么有些扫描有过滤器而有些没有。半色调识别算法中的一些错误或边缘情况 - 谁知道。
您的模糊可能不是由过滤器引起的,但需要记住。
| 归档时间: |
|
| 查看次数: |
6580 次 |
| 最近记录: |