用于从PDF搜索文本的脚本

Hai*_* Vu 5 python pdf macos parsing tcl

问题

在Mac OS X平台上,我想用Python或Tcl编写脚本来搜索PDF文件中的文本并提取相关部分.我感谢任何帮助.

背景

我正在编写脚本来查看PDF以确定它是一个账单,来自哪个公司,以及在什么时期.根据这些信息,我重命名PDF并将其移动到适当的目录.例如,文件Statement_03948293929384.pdf可能会变为2012-07-15 Water Bill.pdf并移动到我的Utilities文件夹.

到目前为止我做了什么?

  • 我搜索了PDF到纯文本工具,但还没有找到任何东西
  • 我已经查看了Tcl wiki并找到了一个示例,但无法使其工作(我在PDF中搜索文本,但未找到).
  • 我正在研究pdf-parser.py迪迪埃史蒂文斯
  • 我听说过一个名为pyPdf的Python包,接下来会看一下.

更新

我找到了一个名为pdftotext的命令行工具,由Glyph&Cog,LLC编写; 由Carsten Bluem制造和包装.这个工具很简单,它解决了我的问题.我仍在寻找那些可以直接搜索PDF的工具,而无需转换为文本文件.

Tro*_*ame 1

我已经成功使用PyODConverter来转换 PDF 或从 PDF 转换(还有一个更强大的 Java 版本)。将 PDF 转换为文本后,搜索就很简单了。我也相信iText应该能够做类似的事情,但我还没有测试过。