PDF到文本转换器

the*_*ror 9 linux pdf software-rec macos

我正在寻找一种“一键式”方式来获取任何 PDF 并将其转换为纯文本。理想情况下在 OSX 或 Linux 上。

理想情况下,该解决方案将包括 OCR 功能,但并非必须如此。

最重要的是拥有可以在没有配置的情况下获取任何文件的东西。

slh*_*hck 23

有包含二进制文件的xpdfpdftotext

Pdftotext 将便携式文档格式 (PDF) 文件转换为纯文本。

在 Linux 上有一个安装程序可用。似乎它也包含在poppler-utils包装中。在 OS X 上,您可以使用Homebrew安装它(先安装),然后使用

brew install homebrew/x11/xpdf
Run Code Online (Sandbox Code Playgroud)

它将下载源文件并为 OS X 编译它。之后,只需像这样使用它:

pdftotext your_pdf_file.pdf
Run Code Online (Sandbox Code Playgroud)

这将生成一个纯文本文件。还有几个选项,请man pdftotext查看更多详细信息。

另一种选择是poppler,在 OSX 中:

brew install poppler
Run Code Online (Sandbox Code Playgroud)

在 Debian 和朋友

apt-get install poppler-utils
Run Code Online (Sandbox Code Playgroud)