从pdf中提取文本的最佳perl模块是什么?

use*_*084 6 pdf perl text extraction

从pdf中提取文本的最佳方法是什么?

Phs*_*pok 7

CAM :: PDF模块用于提取文本和维护有关它从文件中传来的一些信息非常有用.它安装了/usr/local/bin/getpdftext.pl,它演示了简单的提取.但是,CAM :: PDF只能读取完全有效的PDF.

如果您正在处理格式错误的PDF,则可能需要更宽松的解析器,例如pdftotext.它将foo.pdf转储到foo.txt,然后您可以将其读入Perl.