我想用PDFMiner从PDF文件中提取所有文本框和文本框坐标.
许多其他Stack Overflow帖子解决了如何以有序方式提取所有文本,但是如何进行获取文本和文本位置的中间步骤?
给定一个PDF文件,输出应该类似于:
489, 41, "Signature" 500, 52, "b" 630, 202, "a_g_i_r"
python pdf pdfminer
pdf ×1
pdfminer ×1
python ×1