Hai*_* Vu 5 python pdf macos parsing tcl
在Mac OS X平台上,我想用Python或Tcl编写脚本来搜索PDF文件中的文本并提取相关部分.我感谢任何帮助.
我正在编写脚本来查看PDF以确定它是一个账单,来自哪个公司,以及在什么时期.根据这些信息,我重命名PDF并将其移动到适当的目录.例如,文件Statement_03948293929384.pdf
可能会变为2012-07-15 Water Bill.pdf
并移动到我的Utilities
文件夹.
pdf-parser.py
迪迪埃史蒂文斯我找到了一个名为pdftotext的命令行工具,由Glyph&Cog,LLC编写; 由Carsten Bluem制造和包装.这个工具很简单,它解决了我的问题.我仍在寻找那些可以直接搜索PDF的工具,而无需转换为文本文件.
我已经成功使用PyODConverter来转换 PDF 或从 PDF 转换(还有一个更强大的 Java 版本)。将 PDF 转换为文本后,搜索就很简单了。我也相信iText应该能够做类似的事情,但我还没有测试过。