使用非标准字符编码搜索 PDF

Hug*_*len 19 search pdf character-encoding

当您复制文本(即使它们呈现正常)时,某些 PDF 文件会产生垃圾(“ mojibake ”)。这使得无法搜索它们(您搜索的任何内容都不会与垃圾匹配)。

有没有人有一个简单的解决方法?

例子:

  1. TEAC TV 手册 EU2816STF(在 Windows 和 Mac 上的 Adob​​e Reader 中产生上述问题,但在 Mac 上的预览中工作正常)
  2. Leadtek Winfast PVR2 手册(FTP 链接;在 Mac 上预览也有问题)
  3. Swann TV 调谐器卡手册(FTP 链接;在 Mac 上预览也有问题)
  4. Phonedisc 许可协议(来自现已解散的DTMS
  5. 麦格理 IFP 季度基金回顾
  6. BAN-TACS 小型企业手册(存档版)
  7. 2004 年复活节传单(也来自档案)

我正在使用适用于 Windows 的 Adob​​e Reader(最新版本) - 也许其他查看器可能会有所帮助?我正在寻找适用于 Windows 的免费解决方案。开源会更好。

编辑:Multivalent Extract Text 工具的文档很好地总结了为什么会出错,包括:(引用的文档最后修改时间为 2006 年 1 月)

  • 文本可能没有 Unicode 映射。PDF Type 3 字体通常没有,而 TeX DVI 具有没有 Unicode 等价物的字符。
  • Unicode 编码可能有问题。Open Office 将一些字符映射到相同的 Unicode,导致明显的字母丢失和翻倍。

我想在这些情况下的最终解决方案是对字体中的每个字形进行 OCR 以找出它到底是什么字符。请注意,这比对嘈杂的扫描文档进行 OCR 更容易,因为字形的确切形状是可用的(在无限分辨率下,因为它是“矢量”图像)。

Ale*_*lex 3

也许是福昕阅读器

无论如何,我刚刚检查了您在 Mac OS X 10.6.2 上使用 Safari 4.0.4 链接到的 PDF,虽然有一些Engrish 但它完美地呈现了 PDF,没有任何屏幕上的“垃圾”。也许您遇到了 Unicode 问题(在 Windows 上比 Mac OS 上更常见)?

  • 我尝试了福昕阅读器,它也有同样的问题。它的安装程序也非常具有侵入性,想要安装工具栏,修改您的主页等:( (4认同)