是否有某种 PDF 到文本转换器?

ott*_*tto 28 ocr search pdf text

我需要 PDF 文件到文本,以便我可以从命令行批量搜索它们。是否有一些适用于 Ubuntu、OBSD 或类似发行版的转换器?

也许相关的帖子,这里有 ubuntu 的 OCR 。

fra*_*ous 30

你有很多选择!

pdftotext来自poppler已经被提及。

一个名为 Haskell 的程序pdf2line运行良好。

calibreebook-convert命令行程序(或 calibre 本身)是另一种选择;它可以将 PDF 转换为纯文本或其他电子书格式(RTF、ePub),在我看来它比 pdftotext 产生更好的结果,尽管它要慢得多。

ebook-convert file.pdf file.txt

AbiWord可以在它从命令行知道的任何格式之间进行转换,并且至少可以选择有一个 PDF 导入插件:

abiword --to=txt file.pdf

另一个选项podofotextextract来自podofo PDF 工具库。我还没有真正尝试过。

如果您将两个 Ghostscript 工具pdf2ps和结合起来ps2ascii,您还有另一个选择。

我实际上可以想到更多的方法,但我现在就离开它。;)

  • 您可以使用 [less](http://unixhelp.ed.ac.uk/CGI/man-cgi?less) 将 pdf 文件作为文本查看。它调用预处理器,即lesspipe,用于调用pdftotext 或类似工具。 (2认同)

Gil*_*il' 10

您可以使用pdftotext(Ubuntu:poppler-utils;OpenBSD:xpdf-utils包)在命令行上将 PDF 转换为文本。

您可以使用Recoll (Ubuntu:recoll;OpenBSD:没有端口,但有一个用于FreeBSD。)在各种格式化的文本文档类型中进行搜索,包括 PDF。有一个 GUI,它会在后台自动构建索引。它用于pdftotext将 PDF 转换为文本。

Acrobat Reader(Linux 下至少版本 9)具有有限的多文件搜索功能(您可以搜索目录中的所有文件)。


jll*_*gre 4

pdftotext 可能就是您正在寻找的内容:http://en.wikipedia.org/wiki/Pdftotext除非您要提取的文本实际上是图形形式,这在 pdf 文档中并不常见。