我从其他人那里得到了很多由扫描的旧文档组成的 PDF。不幸的是,有时扫描件上的文字虽然清晰易读,但看起来颗粒状且难以阅读。
到目前为止,我能够做的是使用 OCR 将文本提取到 Word 文档中。然而,由于这些旧文档通常有插图和复杂的格式,我真正想做的就是删除旧的颗粒状文本并用计算机生成的字体替换它。换句话说,我想最大程度地保留 PDF 及其页面的格式,同时通过将其替换为“新罗马”来“清理”文本。
几天来,我一直在网上寻找一种简单、可自动化的方法来执行此类清理,但到目前为止我还没有找到任何东西。似乎应该有一种方法可以做到这一点,它似乎并不那么复杂,但也许我忽略了这个问题的某些方面,将其置于 OCR 目前可行的范围之外。
有什么建议?