任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗?我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.
我们希望以数据xml或json格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.
xml
json
是否有以编程方式从pdf中提取文本的替代品(商业或免费)?
pdf text text-extraction ghostscript extraction
extraction ×1
ghostscript ×1
pdf ×1
text ×1
text-extraction ×1