shi*_*ams 1 linux pdf pdfminer
我有多个 PDF,我想从第一页的某个区域提取文本。那么,假设我有 PDF 中文本的边界框坐标,如何使用命令行提取该文本。
我研究了一下,发现 PDFMiner 和 PDFBox 可以做到这一点。但 PDFMiner 的文档非常少。
有人可以告诉我如何使用 PDFMiner 做到这一点吗?或者您是否可以建议其他解决方案?
PS:我在 Linux 终端上。
pdftotext(采用基于 Poppler 的最新版本之一)确实可以让您定义一个页面区域以从中提取文本。
尝试这个:
pdftotext \
-f 5 \
-l 7 \
-x 200 \
-y 700 \
-W 144 \
-H 80 \
input.pdf \
output.txt
Run Code Online (Sandbox Code Playgroud)
它选择页面范围 5-7,以及宽度 = 144 点 ( )、高度 = 80 点的矩形72 points == 1 inch,其中左上角位于 x 坐标 200、y 坐标 700。