是否有某种 PDF 到文本转换器？

Question

我需要 PDF 文件到文本，以便我可以从命令行批量搜索它们。是否有一些适用于 Ubuntu、OBSD 或类似发行版的转换器？

也许相关的帖子，这里有 ubuntu 的 OCR 。

Answer 1

你有很多选择！

pdftotext来自poppler已经被提及。

calibre的ebook-convert命令行程序（或 calibre 本身）是另一种选择；它可以将 PDF 转换为纯文本或其他电子书格式（RTF、ePub），在我看来它比 pdftotext 产生更好的结果，尽管它要慢得多。

ebook-convert file.pdf file.txt

AbiWord可以在它从命令行知道的任何格式之间进行转换，并且至少可以选择有一个 PDF 导入插件：

abiword --to=txt file.pdf

另一个选项podofotextextract来自podofo PDF 工具库。我还没有真正尝试过。

如果您将两个 Ghostscript 工具pdf2ps和结合起来ps2ascii，您还有另一个选择。

我实际上可以想到更多的方法，但我现在就离开它。;)

您可以使用 [less](http://unixhelp.ed.ac.uk/CGI/man-cgi?less) 将 pdf 文件作为文本查看。它调用预处理器，即lesspipe，用于调用pdftotext 或类似工具。 (2认同)

Answer 2

您可以使用pdftotext（Ubuntu：poppler-utils；OpenBSD：xpdf-utils包）在命令行上将 PDF 转换为文本。

您可以使用Recoll （Ubuntu：recoll；OpenBSD：没有端口，但有一个用于FreeBSD。）在各种格式化的文本文档类型中进行搜索，包括 PDF。有一个 GUI，它会在后台自动构建索引。它用于pdftotext将 PDF 转换为文本。

Acrobat Reader（Linux 下至少版本 9）具有有限的多文件搜索功能（您可以搜索目录中的所有文件）。

Answer 3

pdftotext 可能就是您正在寻找的内容：http://en.wikipedia.org/wiki/Pdftotext除非您要提取的文本实际上是图形形式，这在 pdf 文档中并不常见。