使用 perl 将 pdf 转换为文本

1 pdf perl text

我有一个 pdf 文件,我想将其转换为文本文件。我在 Linux 命令行上尝试了 perl perl getpdftotext.exe fileName.pdf 但没有任何反应。我尝试过CPAN CAM::PDF但没有运气。

我收到错误 Use of uninitialized value in string eq at

C:/Strawberry/perl/site/lib/CAM/PDF.pm line 2362

并且输出文件为空。

我能够读取 pdf 文件中的页数。 my $num=$pdfone->numPages();返回正确的页数。我使用的是 Adob​​e Reader X 版本 10.1.4。我还尝试了一个渲染器,试图获取一页...第二个片段我也得到了错误未初始化值。我尝试过不同的pdf文件。我正在使用草莓 perl。

enter code here

use CAM::PDF;
use CAM::PDF::PageText;
use PDF::API2;
    my $pdfone = CAM::PDF->new('WFServlet.pdf');
    my $outfile = "pdfWFServeltRESULT.txt"; 
    my @lines;
    open (OUTF, ">$outfile") || die "Can not open $outfile";

    for my $page (1 .. $pdfone->numPages()) {
       my $text = $pdfone->getPageText($page);
       @lines = split (/\n/, $text);
    }
    :
    : #snippet 2
 use CAM::PDF;
 use PDF::API2;
 use CAM::PDF::PageText;
 :
 my $pageone_tree = $pdfone->getPageContentTree(1);
 my $doc->getPageText(1);
 if (defined $doc) {
    print OUTF CAM::PDF::PageText->render($doc);
 }
 if (defined $pageone_tree) {
    print OUTF CAM::PDF::PageText->render($pageone_tree);
 }
Run Code Online (Sandbox Code Playgroud)

Chr*_*lan 5

我是 CAM::PDF 的作者,我衷心建议使用不同的工具来完成此任务。:-) 我将文本提取作为一个有趣的实验编写,很快发现这是一个很难解决的问题。