如何根据位置从PDF中提取文本？

Question

我有多个 PDF，我想从第一页的某个区域提取文本。那么，假设我有 PDF 中文本的边界框坐标，如何使用命令行提取该文本。

我研究了一下，发现 PDFMiner 和 PDFBox 可以做到这一点。但 PDFMiner 的文档非常少。

有人可以告诉我如何使用 PDFMiner 做到这一点吗？或者您是否可以建议其他解决方案？

PS：我在 Linux 终端上。

Answer 1

pdftotext（采用基于 Poppler 的最新版本之一）确实可以让您定义一个页面区域以从中提取文本。

尝试这个：

pdftotext    \
  -f 5       \
  -l 7       \
  -x 200     \
  -y 700     \
  -W 144     \
  -H 80      \
   input.pdf \
   output.txt

它选择页面范围 5-7，以及宽度 = 144 点 ( )、高度 = 80 点的矩形72 points == 1 inch，其中左上角位于 x 坐标 200、y 坐标 700。