使用非标准字符编码搜索 PDF

Question

当您复制文本（即使它们呈现正常）时，某些 PDF 文件会产生垃圾（“ mojibake ”）。这使得无法搜索它们（您搜索的任何内容都不会与垃圾匹配）。

有没有人有一个简单的解决方法？

例子：

我正在使用适用于 Windows 的 Adobe Reader（最新版本） - 也许其他查看器可能会有所帮助？我正在寻找适用于 Windows 的免费解决方案。开源会更好。

编辑：Multivalent Extract Text 工具的文档很好地总结了为什么会出错，包括：（引用的文档最后修改时间为 2006 年 1 月）

文本可能没有 Unicode 映射。PDF Type 3 字体通常没有，而 TeX DVI 具有没有 Unicode 等价物的字符。

Unicode 编码可能有问题。Open Office 将一些字符映射到相同的 Unicode，导致明显的字母丢失和翻倍。

我想在这些情况下的最终解决方案是对字体中的每个字形进行 OCR 以找出它到底是什么字符。请注意，这比对嘈杂的扫描文档进行 OCR 更容易，因为字形的确切形状是可用的（在无限分辨率下，因为它是“矢量”图像）。

Answer 1

无论如何，我刚刚检查了您在 Mac OS X 10.6.2 上使用 Safari 4.0.4 链接到的 PDF，虽然有一些Engrish ，但它完美地呈现了 PDF，没有任何屏幕上的“垃圾”。也许您遇到了 Unicode 问题（在 Windows 上比 Mac OS 上更常见）？