高级PDF使用Python解析(提取没有表格的文本等):什么是最佳库?

Mik*_*icz 81 python pdf parsing text-extraction information-extraction

我正在寻找一个PDF库,它允许我从PDF文档中提取文本.我看过PyPDF,这可以很好地从PDF文档中提取文本.这样做的问题是,如果文档中有表,则表中的文本将与文档文本的其余部分一起提取.这可能会有问题,因为它会产生一些无效且看起来乱码的文本部分(例如,大量数字混在一起).

我正在寻找更高级的东西.我想从PDF文档中提取文本,不包括任何表格和特殊格式.那里有图书馆吗?或者我被迫对输出文本进行一些后处理以摆脱这些部分?

Eti*_*nne 58

您还可以查看PDFMiner,它是Python中的另一个PDF解析器.

您感兴趣的PDFMiner的特殊性在于您可以控制在进行提取时重新组合文本部分的方式.你可以通过指定行,单词,字符等之间的空格来做到这一点.因此,也许通过tweeking你可以实现你想要的(这取决于你的文档的可变性).PDFMiner还可以为您提供页面中文本的位置,它可以通过Object ID和其他内容提取数据.所以挖掘PDFMiner并发挥创意!

但是你的问题真的不容易解决,因为在PDF中,文本不是连续的,而是由绝对位于页面中的许多小字符组构成的.PDF的重点是保持布局完好无损.它不是面向内容而是面向演示.

  • PDFMiner 看起来很有趣。我能够使用它的 XML 输出,然后解析它以忽略我不想要的内容。这仍然需要大量的后处理,但目前它可能是最好的解决方案。谢谢。 (2认同)
  • 目前,PDFMiner不支持Python 3,今天我要说的这是一个很大的关门。 (2认同)
  • 从版本20191010开始,PDFMiner仅支持**Python 3** (2认同)