Mik*_*icz 81 python pdf parsing text-extraction information-extraction
我正在寻找一个PDF库,它允许我从PDF文档中提取文本.我看过PyPDF,这可以很好地从PDF文档中提取文本.这样做的问题是,如果文档中有表,则表中的文本将与文档文本的其余部分一起提取.这可能会有问题,因为它会产生一些无效且看起来乱码的文本部分(例如,大量数字混在一起).
我正在寻找更高级的东西.我想从PDF文档中提取文本,不包括任何表格和特殊格式.那里有图书馆吗?或者我被迫对输出文本进行一些后处理以摆脱这些部分?
Eti*_*nne 58
您还可以查看PDFMiner,它是Python中的另一个PDF解析器.
您感兴趣的PDFMiner的特殊性在于您可以控制在进行提取时重新组合文本部分的方式.你可以通过指定行,单词,字符等之间的空格来做到这一点.因此,也许通过tweeking你可以实现你想要的(这取决于你的文档的可变性).PDFMiner还可以为您提供页面中文本的位置,它可以通过Object ID和其他内容提取数据.所以挖掘PDFMiner并发挥创意!
但是你的问题真的不容易解决,因为在PDF中,文本不是连续的,而是由绝对位于页面中的许多小字符组构成的.PDF的重点是保持布局完好无损.它不是面向内容而是面向演示.