如何从PDF文档中提取文本？

Question

如何使用PHP从PDF文档中提取文本？

(我不能使用其他工具,我没有root访问权限)

我发现一些函数适用于纯文本,但它们不能很好地处理Unicode字符:

Answer 1

码:

include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf'); 
$a->decodePDF();
echo $a->output();

该课程不适用于我测试的所有pdf,尝试一下,你可能会很幸运:)

如果上述方法不起作用,请尝试http://pdfparser.org/

项目主页(SSL证书问题)

Answer 2

我知道这个话题已经很老了,但这个需求仍然存在.我阅读了许多文档,论坛和脚本,并构建了一个支持压缩和未压缩pdf的新的高级文档:

希望它能帮到你

对于作曲家有问题的人，我已经在此处上传了 zip 文件中完美工作的版本 https://github.com/vikicoder007/pdftotext (2认同)