以编程方式提取PDF表格

mar*_*igi 21 .net pdf acrobat extract

我有一堆PDF文档,其中包含表格数据,我需要将其提取为更易读的格式,以存储在电子表格,数据库或其他任何内容中.

世界上是否有任何东西(最好是免费的)可以将PDF格式的表格数据转换为更易读的格式,可以通过本机与应用程序集成,也可以通过命令行被动地或通过代码(.net)循环进程?

只要表格得到维护,就可以是任何格式(doc,html).

到目前为止我发现的任何东西都是一次性的(一次只有一个文档,我有数百个,没有发生)或者没有维护表结构.

任何想法请发布.

and*_*soj 12

这是一个巨大的麻烦.通常,提取PDF文件的文本内容是针对PDF要求您执行的操作而运行的.

首先尝试将文本输出.这可能或多或少成功,具体取决于PDF的构建方式.一个开始的地方是GhostScript或pstotext.如果失败了,那么这个人就有了一个文本提取工具列表.获得文本流后,您可以尝试以编程方式重新组装表格结构.

最后,如果你的形状非常糟糕,如果PDF不合作,你可以做OCR的事情.正确的长期解决方案是通过执行单个,大规模,痛苦且可能部分手动的过程,在一开始就将数据转换为正确的格式; 或者转到消息来源并建议以更有用的形式提供数据.

如果您可以提供更具体的PDF示例文件,则可能会有更好或更精确的答案......对此没有通用解决方案,如果可能,则需要根据您的特定源数据进行定制.

请注意这个对一般问题的相当尖锐的回答 ......对你面前的问题没有帮助,但是在向老板解释为什么没有明显的答案时,它可能会提供有用的topcover?;-)

出现了一个新的SO问题,并提到了这个库 - iTextSharp - 看起来可能相关.所以问题:提取的最好方法......


Kur*_*fle 5

  1. 有关为什么PDF 文件格式永远不应该被认为适合托管可提取的结构化数据的背景信息,请参阅本文:

  2. 对于从 PDF 中提取表格数据(除非它们是扫描页面)的一系列令人惊叹的工具来说,它们每周都变得越来越好,这与“1”点相矛盾。上面看到这些链接: