目前,我有一系列图像(PNG),并且每个图像都有一个未格式化的文本版本的内容.我想创建一个PDF,其中每个图像成为生成的PDF的完整页面,相应的文本也以某种方式附加到页面,以便搜索某些单词会将您带到包含该文本的页面,即使永远不会直接显示文本.
这是一次性工作,因此不必整洁或可扩展.我可以使用Linux系统上常用的任何语言,或常用的命令行工具.(我也有一个可以使用Acrobat的Windows系统,虽然有近千个图像,所以手册不起作用.)
一种尝试的选择是使用 Java 和Apache-Fop生成 PDF ,但这可能比您想要做的工作更多。
使用 iText 可能会做得更好;将PNG添加到iText生成PDF的示例
您将需要确定如何生成一个Layer用于放置可搜索文本的文本;我无法建议您如何执行此步骤。
以下是如何判断 PDF 是否包含文本的方法,这可能会帮助您构建 PDF。