小编kep*_*ler的帖子

我有一组图像,我在其上运行OCR应用程序.此过程将生成具有字符偏移量的XML文件.然后我使用Acrobat 9将图像转换为PDF.现在,我想将XML文件信息作为不可见的文本层添加到PDF中,以实现可搜索的PDF.有一种简单而自由的方式吗？

一些细节:

我不想使用Acrobat的OCR功能;
OCR进程生成一个XML文件,其中包含以下元素:

<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>

更新:有可能以不同的方式做我想要的事情.假设已经有一组PDF文件从一组图像生成,并且已经包含OCR文本.是否有可能(可能以编程方式)访问每个页面的图像,处理它(例如,将其转换为单色),并将其保存回PDF文件？如果是,则OCRed文本不会丢失.

[我应该把这个更新放到一个单独的问题吗？]

6
推荐指数

1
解决办法

2271
查看次数

ocr ×1

pdf ×1

xml ×1

小编kep_ler的帖子