为什么字母"f"经常无法从pdf文件中的文本中复制?

war*_*ole 10 pdf text copy

我不确定这个问题是否适用于此,但对于我来说,从ff文本复制时,字母'f'经常搞砸了,这似乎很奇怪.

我作为一名学生做研究,我读了很多论文.当我想复制纸张名称以重命名pdf文件时,会发生这种情况.

例如,我打开链接一纸将Chrome内置的PDF显示插件在MacBook Pro上使用OSX 10.9.尝试复制纸张标题并粘贴.'流体'中的'f'将会丢失.

Jan*_*bal 11

不仅"f"会丢失,"fl"也会丢失.

其原因是所谓的" 连字 ".为了看起来不错,一些字母组​​合,特别是fi,组合成一个字符.复制粘贴时很少能正确处理特殊字符.你可以在下面看到这个.如果您尝试选择连字,您会发现它只是一个"字母".请注意,您的计算机可以使用结扎线渲染两个单独的字母.

以下是"fi"连字:fi
以下是两个字母:fi

特别是在固定宽度字体中可见:

The following is a "fi" ligature: ?
The following is two letters:     f?i
Run Code Online (Sandbox Code Playgroud)


use*_*289 6

我认为@warriormole无法复制的原因fl不是使用连字本身,而是忽视或忽略PDF文件创建者.10-15年前还没关系,每个人都很开心只是因为PDF中存在一些"图片"而没有人考虑过内容提取和逻辑文本而不是长期的视觉图片保存,而是现在(2010年创建的文件) ) 这是一个耻辱.

PDF提供了存储所使用的任何字形的Unicode表示的方法,并且相关文件可以相对容易地修复.