小编Mis*_*ong的帖子

将扰乱的 PDF 字符重新映射为可读文本

我确实遇到了一个问题，因为 cups-PDF 创建的 PDF 文档中的字符被映射到奇怪的符号 [在 Ubuntu Linux 14.04 和 16.04 上]。我认为它是某种 unicode，即使 Python 告诉我它的字符串类型。type(object)蟒蛇返回"string"

\n\n

如果我通过鼠标复制粘贴从 evince / Firefox 或通过 Python PDFminer 模块从 PDF 中获取文本，则没有区别。所以确实如此，PDF 已经损坏了在 PDF 文档本身上正确呈现的文本信息。我不知道，但 PDF 文档中的文本和文本图形似乎并没有非常紧密地结合在一起。

\n\n

当我从这样创建的 PDF 文档中复制文本时，名称“Raphael”会变成"\xe2\x9c\xa1\xe2\x9c\x8d\xe2\x9c\x91\xe2\x9c\x92\xe2\x9c\x8d\xe2\x98\x9b\xe2\x9c\x93"这样，每个字符都会映射到"\xe2\x9c\xa1=R \xe2\x9c\x8d=a \xe2\x9c\x91=p \xe2\x9c\x92=h \xe2\x9c\x8d=a \xe2\x98\x9b=e \xe2\x9c\x93=l"

\n\n

另一个例子是："Devel"变成"\xe2\x9c\xad\xe2\x98\x9b\xe2\x9c\xae\xe2\x98\x9b\xe2\x9c\x93"

\n\n

我怎样才能在Python中编写一个函数来将这个“错误”信息转换为正确的信息？PDF 文档中的所有内容都完全可读。

\n\n

这与 cups-PDF 使用 postscript 创建 PDF 但未向文档添加正确的字体/字符信息有关。

\n\n

如果字母始终是该复选标记 unicode 字符的\'l\'符号\'\xe2\x9c\x93\'

\n\n

如何将这种奇怪的表示形式中的字符重新映射为 Python 中的正确表示形式？那么如何将符号转换或重新映射\'\xe2\x9c\x93\'为字母\'l\'呢？任何想法？

\n\n …

python unicode character remap