无法从pdf复制精确的印地文内容

Question

我无法从pdf文件中复制印地文内容.当我尝试复制/粘贴该内容时,它会更改为不同的印地语字符.

例-

Original-निर्वाचक

粘贴后 - ननरररचक

它显示这样.

任何人都可以帮助我获得确切的印地语字符.

Answer 1

此问题类似于本答案中讨论的问题,示例文档的外观也提醒了此处的文档:

简而言之

您的文档本身提供的信息,例如标题中的字形"निर्वाचक"代表文本"ननरररचक".您应该向文档的来源询问文档版本,其中字体信息不会产生误导.如果那是不可能的,你应该去OCR.

第一页的第一行由页面内容流中的以下操作生成:

/9 239 Tf
( !"#$%&) Tj

第一行选择大小为239的名为9的字体(页面开头的操作将所有内容缩小).第二行导致打印字形.使用该字体的自定义编码在括号之间引用这些字形.

PDF第一页上的字体9包含ToUnicode映射.这张地图特别映射

<20> <20> <0928>
<21> <21> <0928>
<22> <22> <0930>
<23> <23> <0930>
<24> <24> <0930>

即代码0x20('')和0x21('!')都映射到Unicode代码点0x0928('न')和代码0x22('"'),0x23('#')和0x24('$ ')全部为Unicode代码点0x0930('र').

因此,( !"#$%&)完全正确地显示为"निर्वाचक" 的内容(根据文档中的信息)被提取/复制并粘贴为"ननरररचक".