如何在 Linux 上的脚本中从 pdf 中提取文本?

Rob*_*obM 35 linux script pdf export

在 Linux 上 - 如何从.pdf真正是文本而不是扫描图像的文本中提取文本?我想要一些我可以在命令行/脚本中使用的东西,而不是交互式的。(我不想转换.tif和使用 OCR - 文件中已经有文本可用.pdf,那么为什么要引入不完美的 OCR 的不准确之处呢?)

Ign*_*ams 38

pdftotext poppler 附带的将尝试提取在 PDF 中找到的任何文本。

  • `pdftotext 输入.pdf 输出.txt` (2认同)

fra*_*ous 12

伊格纳西奥的回答很好。事实上,这将是我名单上的第一件事。好吧,这也许是为了建议pdftohtmlpoppler 附带的工具,如果您想尝试将文本重新组合为段落等,请与pdfreflow结合使用(当然,这将为您提供 HTML 输出,但将 HTML 转换为纯文本可以可以通过多种方式完成。)

这里还有一些其他选择。

ebook-convert来自Calibre的命令行工具,可以将 .PDF 转换为纯文本(或 RTF 或多种电子书格式,如 ePub 等)

pdftxtextract来自波多福

可以从命令行调用Abiword以在它可以输入/导出到的任何格式之间进行转换,并且使用适当的导入插件,这包括 PDF:

abiword --to=txt file.pdf

(公平地说,我认为 AbiWord 和 calibre 都使用 poppler 库,但我并不乐观。)