我确实遇到了一个问题,因为 cups-PDF 创建的 PDF 文档中的字符被映射到奇怪的符号 [在 Ubuntu Linux 14.04 和 16.04 上]。我认为它是某种 unicode,即使 Python 告诉我它的字符串类型。type(object)蟒蛇返回"string"
如果我通过鼠标复制粘贴从 evince / Firefox 或通过 Python PDFminer 模块从 PDF 中获取文本,则没有区别。所以确实如此,PDF 已经损坏了在 PDF 文档本身上正确呈现的文本信息。我不知道,但 PDF 文档中的文本和文本图形似乎并没有非常紧密地结合在一起。
\n\n当我从这样创建的 PDF 文档中复制文本时,名称“Raphael”会变成"\xe2\x9c\xa1\xe2\x9c\x8d\xe2\x9c\x91\xe2\x9c\x92\xe2\x9c\x8d\xe2\x98\x9b\xe2\x9c\x93"这样,每个字符都会映射到"\xe2\x9c\xa1=R \xe2\x9c\x8d=a \xe2\x9c\x91=p \xe2\x9c\x92=h \xe2\x9c\x8d=a \xe2\x98\x9b=e \xe2\x9c\x93=l"
另一个例子是:"Devel"变成"\xe2\x9c\xad\xe2\x98\x9b\xe2\x9c\xae\xe2\x98\x9b\xe2\x9c\x93"
我怎样才能在Python中编写一个函数来将这个“错误”信息转换为正确的信息?PDF 文档中的所有内容都完全可读。
\n\n这与 cups-PDF 使用 postscript 创建 PDF 但未向文档添加正确的字体/字符信息有关。
\n\n如果字母始终是该复选标记 unicode 字符的\'l\'符号\'\xe2\x9c\x93\'
如何将这种奇怪的表示形式中的字符重新映射为 Python 中的正确表示形式?那么如何将符号转换或重新映射\'\xe2\x9c\x93\'为字母\'l\'呢?任何想法?