从PDF中提取坐标和大小的图像和单词

Question

我已经阅读了很多关于PDF提取和库(如iText)的内容,但我还没有找到从PDF中提取图像和文本(带坐标)的解决方案.

任务是使用产品目录扫描PDF并提取每个图像.每个图像旁边都印有一个图像代码,还有一个产品代码列表,用于显示在图像上的产品.

我知道没有办法从这样的PDF中提取结构化信息,但是使用所有图像和文本对象的坐标,我可以编写代码来识别链接文本与图像的距离.然后我可以使用RegExp分割文本,找出什么是产品代码,什么是图像代码等.

你能为这项任务推荐一个好的工作解决方案吗？

Answer 1

有几个 Java 库可以做到这一点。您看过 JPedal 或 PdfBox 吗？