如何在 Linux 上的脚本中从 pdf 中提取文本？

Question

在 Linux 上 - 如何从.pdf真正是文本而不是扫描图像的文本中提取文本？我想要一些我可以在命令行/脚本中使用的东西，而不是交互式的。（我不想转换.tif和使用 OCR - 文件中已经有文本可用.pdf，那么为什么要引入不完美的 OCR 的不准确之处呢？）

Answer 1

pdftotext poppler 附带的将尝试提取在 PDF 中找到的任何文本。

Answer 2

伊格纳西奥的回答很好。事实上，这将是我名单上的第一件事。好吧，这也许是为了建议pdftohtmlpoppler 附带的工具，如果您想尝试将文本重新组合为段落等，请与pdfreflow结合使用（当然，这将为您提供 HTML 输出，但将 HTML 转换为纯文本可以可以通过多种方式完成。）

这里还有一些其他选择。

ebook-convert来自Calibre的命令行工具，可以将 .PDF 转换为纯文本（或 RTF 或多种电子书格式，如 ePub 等）

pdftxtextract来自波多福

可以从命令行调用Abiword以在它可以输入/导出到的任何格式之间进行转换，并且使用适当的导入插件，这包括 PDF：

abiword --to=txt file.pdf

（公平地说，我认为 AbiWord 和 calibre 都使用 poppler 库，但我并不乐观。）