将重复(隐藏)文本图层添加到pdf以进行额外搜索

Question

我的问题:

我有一个带有许多带有复杂变音符号的罗马字符的pdf(例如,ṣ,ś,ṝ,ǎ等).为了更容易在pdf中搜索,我想添加一个额外的层,就像使用hocr一样,其中相同的文本存在而没有变音符号.

当使用全文搜索引擎时,我可以在同一位置(向量)索引多个术语 - 我想在这里达到相同的效果.

我已经阅读了很多关于向扫描图像添加特定图层的内容,但我真的只想复制文本图层,将其传递给删除变音符号的脚本(直截了当),然后将其作为隐藏但可搜索的图层重新添加.

有人有什么建议吗？(涉及任何平台,语言,库或工具链的解决方案将非常有用!)

谢谢 :)

编辑:如果问题不清楚,请告诉我.

Answer 1

我有一个(稍微丑陋和hackish)的解决方案,所以我想我会分享它.

我正在使用PDFMiner来提取文本以及坐标.然后我使用ReportLab将文本的规范化版本写入一个新的pdf,与隐藏文本完全相同.为了使位置正确排列,我发现我必须使用完全相同的字体,所以我使用FontForge和MuPDF的组合从原始pdf中提取所需的字体.

最后,创建了新的pdf,我使用pdftk将其与原始文件合并.

它工作得很好,但有一个缺点,即从pdf中复制文本会导致复制的规范化文本.但这对我目前的目的来说是可以接受的,我无法看到任何解决方法.pdf规范并不真正支持我的目标,所以我不认为我能比这个hackish解决方案做得更好.