我的问题:
我有一个带有许多带有复杂变音符号的罗马字符的pdf(例如,ṣ,ś,ṝ,ǎ等).为了更容易在pdf中搜索,我想添加一个额外的层,就像使用hocr一样,其中相同的文本存在而没有变音符号.
当使用全文搜索引擎时,我可以在同一位置(向量)索引多个术语 - 我想在这里达到相同的效果.
我已经阅读了很多关于向扫描图像添加特定图层的内容,但我真的只想复制文本图层,将其传递给删除变音符号的脚本(直截了当),然后将其作为隐藏但可搜索的图层重新添加.
有人有什么建议吗?(涉及任何平台,语言,库或工具链的解决方案将非常有用!)
谢谢 :)
编辑:如果问题不清楚,请告诉我.
我有一个(稍微丑陋和hackish)的解决方案,所以我想我会分享它.
我正在使用PDFMiner来提取文本以及坐标.然后我使用ReportLab将文本的规范化版本写入一个新的pdf,与隐藏文本完全相同.为了使位置正确排列,我发现我必须使用完全相同的字体,所以我使用FontForge和MuPDF的组合从原始pdf中提取所需的字体.
最后,创建了新的pdf,我使用pdftk将其与原始文件合并.
它工作得很好,但有一个缺点,即从pdf中复制文本会导致复制的规范化文本.但这对我目前的目的来说是可以接受的,我无法看到任何解决方法.pdf规范 并不真正支持我的目标,所以我不认为我能比这个hackish解决方案做得更好.