我试图使用Perl从PDF文件中提取文本.我一直在使用pdftotext.exe命令行(即使用Perl system函数)从PDF文件中提取文本,这种方法工作正常.
pdftotext.exe
system
问题是我们在PDF文件中有像α,β和其他特殊字符的符号,这些符号没有显示在生成的txt文件中.在文本中随机添加的空格也很少.
是否有更好,更可靠的方法从PDF文件中提取文本,使文本包含所有符号,如α,β等,文本将与PDF中的文本完全匹配(即没有额外的空格)?
pdf perl text extract
extract ×1
pdf ×1
perl ×1
text ×1