Ale*_*lex 8 pdf words image extraction coordinates
我已经阅读了很多关于PDF提取和库(如iText)的内容,但我还没有找到从PDF中提取图像和文本(带坐标)的解决方案.
任务是使用产品目录扫描PDF并提取每个图像.每个图像旁边都印有一个图像代码,还有一个产品代码列表,用于显示在图像上的产品.
我知道没有办法从这样的PDF中提取结构化信息,但是使用所有图像和文本对象的坐标,我可以编写代码来识别链接文本与图像的距离.然后我可以使用RegExp分割文本,找出什么是产品代码,什么是图像代码等.
你能为这项任务推荐一个好的工作解决方案吗?