如何使用来自各个PNG图像的可搜索文本构建PDF?

jon*_*jon 5 pdf png image

目前,我有一系列图像(PNG),并且每个图像都有一个未格式化的文本版本的内容.我想创建一个PDF,其中每个图像成为生成的PDF的完整页面,相应的文本也以某种方式附加到页面,以便搜索某些单词会将您带到包含该文本的页面,即使永远不会直接显示文本.

这是一次性工作,因此不必整洁或可扩展.我可以使用Linux系统上常用的任何语言,或常用的命令行工具.(我也有一个可以使用Acrobat的Windows系统,虽然有近千个图像,所以手册不起作用.)

Jos*_*hDM 1

一种尝试的选择是使用 Java 和Apache-Fop生成 PDF ,但这可能比您想要做的工作更多。

使用 iText 可能会做得更好;将PNG添加到iText生成PDF的示例

您将需要确定如何生成一个Layer用于放置可搜索文本的文本;我无法建议您如何执行此步骤。

以下是如何判断 PDF 是否包含文本的方法,这可能会帮助您构建 PDF。

  • 在 PDF 中“将图像分层”非常容易,只需首先将文本添加到页面内容,然后添加图像,无需任何魔法。或者,顺便说一句,PDF 允许您以不显示文本的模式添加文本(仅使其可选择、复制和粘贴等)。 (2认同)