相关疑难解决方法(0)

我有一些印地语的 PDF，并且有可提取的文本。我使用pdfminer.six for python 3.6 来进行提取。输出看起来像：

如您所见，有许多字符被转换为“(cid :number)”形式。

在进一步分析中，我发现 PDF 包含将字符代码映射到字形索引的 CMAP。因此，CID 是 CMAP 表中它映射到的字形的字符标识。

但是这些字符代码与 Unicode 值有什么关系呢？基本上，PDF 查看器如何使用此映射显示字形？

此外，根据对这个类似问题的评论，这个过程可能不合法。但我并不是要窃取某人的字体。我要正文。这个过程如何成为非法的？

由于像这样的问题很多，我想澄清一下，我的目的不是解决“cid”问题。我想澄清问题的原因和违法的原因。

编辑： 这问题页的pdfminer讨论这个问题，在这里笔者清楚地说，似乎有此问题没有可靠的解决方法。是否有一些通用的基本限制（例如，无法访问字体）使此问题持续存在？

4
推荐指数

1
解决办法

4675
查看次数

pdf ×1