问题
我试图通过搜索文本来确定文档的类型(例如恳求,通信,传票等),最好使用python.所有的PDF都是可搜索的,但是我还没有找到解决方案,用python解析它并应用脚本来搜索它(首先不是将它转换为文本文件,但对于n个文档来说这可能是资源密集型的).
到目前为止
我做了什么我已经研究过 pypdf,pdfminer,adobe pdf文档,以及我能找到的任何问题(虽然似乎没有一个直接解决这个问题).PDFminer似乎最具潜力,但在阅读完文档之后我甚至不确定从哪里开始.
是否有一种简单有效的方法可以通过页面,行或整个文档来阅读PDF文本?或任何其他解决方法?
我正在寻找一个优雅的解决方案,以找到文档中的哪个页面出现我存储在python词典/列表中的某个单词.
我首先将.docx格式视为输入,并查看了具有搜索功能的PythonDocx,但显然没有docx/xml格式的页面属性.如果我解析文档,我可以<w:br w:type="page"/>在xml树中查找出现但不幸的是,这些不显示非强制分页符.
我甚至考虑首先将文件转换为PDF并使用类似PDFminer的内容来逐页解析文档.
是否有任何直接的解决方案来搜索.docx文档中的字符串并返回它发生的页面
[('foo' ,[1, 4, 7 ]), ('bar', [2]), ('baz', [2, 5, 8, 9 )]
Run Code Online (Sandbox Code Playgroud)