joe*_*joe 20
这些模块可以实现pdf中的提取文本
来自CPAN
my $pdf = CAM::PDF->new($filename);
my $pageone_tree = $pdf->getPageContentTree(1);
print CAM::PDF::PageText->render($pageone_tree);
Run Code Online (Sandbox Code Playgroud)
此模块尝试从PDF页面提取顺序文本.这不是一个强大的过程,因为PDF文本以图形方式按任意顺序排列.这个模块使用一些启发式方法来尝试猜测其他文本旁边的文本,但可能会被下标,非水平文本,字体更改,表单字段等愚弄.
除了这些免责声明之外,它对于从简单的PDF文件中快速转储文本很有用.
我不是 Perl 用户,但我想你会很难找到比 pdftotext 更好的免费文本提取器。
pdftotext 通常可以很好地识别非 ASCII 字符,是否可以正常提取它们,但是您用来查看文本文件的应用程序未使用正确的编码?如果 windows 上的 pdftoetxt 和我的 linux 系统上的一样,那么它默认导出为 utf-8。
您可能永远无法获得适当的解决方案。PDF格式可以将文本编码为应用了字体的ASCII值,也可以将其编码为位图。如果创建PDF的工具决定将特殊字符编码为位图,那么您将很不走运(当然,除非您想使用OCR解决方案)。
| 归档时间: |
|
| 查看次数: |
37657 次 |
| 最近记录: |