从PDF文件集合中提取表格内容

Question

我有一堆PDF - 可能有数百或数千.它们的格式不一样,但是它们中的任何一个都可能有一个或多个表,其中包含我想要收集到单独数据库中的有趣信息.

当然,我知道我必须写一些东西来做这件事.Perl是我的选择 - 或者也许是Java.我不关心什么语言,只要它是免费的(或者在免费试用期间便宜以确保它适合我的目的).

我正在看CAM :: Parse(使用草莓Perl),但我不确定如何使用它来定位和提取文件中的表.我想我确实偏爱Perl,但实际上我想要一些可靠的工作,并且相当容易进行字符串操作.

这样的事情有什么好办法？我是第一个,所以如果java(或python等)有更好的钩子,现在是了解它的好时机.一般指针好; 首选代码将是首选代码.

Answer 1

在从成立之初PDF格式的(超过20年前)从来没有的用意是提取的,有意义的结构化数据的主机.
它的目的是成为文档中文本,图像和图表的可靠直观表示 - 一种数字纸张(也可以通过打印可靠地转移到真实纸张上).仅在其开发后期才添加了更多功能,这有助于再次提取数据(谷歌标记为PDF).
有关从PDF中抓取数据表时出现问题的一些示例,请参阅此文章:
- 为什么更新文档的原因是如此困难
与我的观点相矛盾的是'1' 上面,我现在这样说:对于一个惊人的工具系列,每周都会越来越好地从PDF中提取表格数据(除非它们是扫描页面),请参阅以下链接:

所以:去寻找Tabula.如果任何工具可以做你想要的,那么Tabula可能是最好的工作!

更新

我最近创建了一个ASCiinema截屏视频,演示了如何使用Tabula命令行界面从PDF中提取PDF格式的大表:

(单击上面的图像查看它正在运行.如果它运行得太快,您无法读取所有文本,请使用"暂停"按钮(||-symbol).)

它在这里托管: