从PDF中提取文本

Question

我有一堆PDF文件,我需要转换为TXT.不幸的是,当我使用众多可用实用程序中的一个来执行此操作时,它会丢失所有格式,并且PDF中的所有列表数据都会混乱.是否可以使用Python通过指定位置等从PDF中提取文本？

谢谢.

Answer 1

PDF 不包含表格数据，除非它包含结构化内容。有些工具包括启发式方法来尝试猜测数据结构并将其放回原处。我写了一篇博客文章解释 PDF 文本提取的问题，网址为http://www.jpedal.org/PDFblog/2009/04/pdf-text/