如何将PDF转换为文本以便我可以使用PHP解析该文本?

T. *_*nes 7 php linux pdf import

我的PDF大多是简单的格式化文本.我想用PHP解析文本.我意识到PDF是二进制的,所以我需要一个实用程序或库来将其转换为文本.

有什么建议?

Ben*_*oit 5

第三方软件可以转储PDF文件的文本内容,例如:

  • xdoc2txt(仅限Windows,用于WinMerge插件)
  • pdftotext,Xpdf的一部分


T. *_*nes 4

我最终使用了 XPDF (其中包括 pdftotext )。这非常有效,我在生产中使用它从上传到我们服务器的数百万个 PDF 中提取文本。

下面是Linux CentOS的安装过程:

  1. 从这里下载 3.03 版本:http://foolabs.com/xpdf/download.html
  2. tar -zxvf xpdfbin-linux-3.03.tar.gz (提取 tar.gz )
  3. 创建安装所需的目录(其中部分或全部可能已经存在)
    • 须藤 mkdir /usr/local/man/
    • 须藤 mkdir /usr/local/man/man1/
    • 须藤 mkdir /usr/local/man/man5/
    • 须藤 mkdir /usr/local/etc/xpdfrc/
  4. 从提取的文件夹中移动文件( cd 到刚刚解压 xpdf 的文件夹中)
    • 将所有可执行文件从 bin64 目录(xpdf、pdftotext ...所有文件)移动到 /usr/local/bin/
    • 将 Sample-xpdfrc 文件移动到 /usr/local/etc/xpdfrc (这可以按原样使用)
    • 将手册页从 doc 目录移动( *.1 到 /usr/local/man/man1/ & *.5 到 /usr/local/man/man5/ )
  5. xpdf 应该已安装并可以使用
  6. 您可以删除下载的 tar.gz 文件及其解压文件夹