我有一些印地语的 PDF,并且有可提取的文本。我使用pdfminer.six for python 3.6 来进行提取。输出看起来像:

如您所见,有许多字符被转换为“(cid :number)”形式。
在进一步分析中,我发现 PDF 包含将字符代码映射到字形索引的 CMAP。因此,CID 是 CMAP 表中它映射到的字形的字符标识。
但是这些字符代码与 Unicode 值有什么关系呢?基本上,PDF 查看器如何使用此映射显示字形?
此外,根据对这个类似问题的评论,这个过程可能不合法。但我并不是要窃取某人的字体。我要正文。这个过程如何成为非法的?
由于像这样的问题很多,我想澄清一下,我的目的不是解决“cid”问题。我想澄清问题的原因和违法的原因。
编辑: 这问题页的pdfminer讨论这个问题,在这里笔者清楚地说,似乎有此问题没有可靠的解决方法。是否有一些通用的基本限制(例如,无法访问字体)使此问题持续存在?