Hug*_*len 19 search pdf character-encoding
当您复制文本(即使它们呈现正常)时,某些 PDF 文件会产生垃圾(“ mojibake ”)。这使得无法搜索它们(您搜索的任何内容都不会与垃圾匹配)。
有没有人有一个简单的解决方法?
例子:
我正在使用适用于 Windows 的 Adobe Reader(最新版本) - 也许其他查看器可能会有所帮助?我正在寻找适用于 Windows 的免费解决方案。开源会更好。
编辑:Multivalent Extract Text 工具的文档很好地总结了为什么会出错,包括:(引用的文档最后修改时间为 2006 年 1 月)
- 文本可能没有 Unicode 映射。PDF Type 3 字体通常没有,而 TeX DVI 具有没有 Unicode 等价物的字符。
- Unicode 编码可能有问题。Open Office 将一些字符映射到相同的 Unicode,导致明显的字母丢失和翻倍。
我想在这些情况下的最终解决方案是对字体中的每个字形进行 OCR 以找出它到底是什么字符。请注意,这比对嘈杂的扫描文档进行 OCR 更容易,因为字形的确切形状是可用的(在无限分辨率下,因为它是“矢量”图像)。
| 归档时间: |
|
| 查看次数: |
10879 次 |
| 最近记录: |