以编程方式提取PDF表格

Question

我有一堆PDF文档,其中包含表格数据,我需要将其提取为更易读的格式,以存储在电子表格,数据库或其他任何内容中.

世界上是否有任何东西(最好是免费的)可以将PDF格式的表格数据转换为更易读的格式,可以通过本机与应用程序集成,也可以通过命令行被动地或通过代码(.net)循环进程？

只要表格得到维护,就可以是任何格式(doc,html).

到目前为止我发现的任何东西都是一次性的(一次只有一个文档,我有数百个,没有发生)或者没有维护表结构.

任何想法请发布.

Answer 1

这是一个巨大的麻烦.通常,提取PDF文件的文本内容是针对PDF要求您执行的操作而运行的.

首先尝试将文本输出.这可能或多或少成功,具体取决于PDF的构建方式.一个开始的地方是GhostScript或pstotext.如果失败了,那么这个人就有了一个文本提取工具列表.获得文本流后,您可以尝试以编程方式重新组装表格结构.

最后,如果你的形状非常糟糕,如果PDF不合作,你可以做OCR的事情.正确的长期解决方案是通过执行单个,大规模,痛苦且可能部分手动的过程,在一开始就将数据转换为正确的格式; 或者转到消息来源并建议以更有用的形式提供数据.

如果您可以提供更具体的PDF示例文件,则可能会有更好或更精确的答案......对此没有通用解决方案,如果可能,则需要根据您的特定源数据进行定制.

请注意这个对一般问题的相当尖锐的回答 ......对你面前的问题没有帮助,但是在向老板解释为什么没有明显的答案时,它可能会提供有用的topcover？;-)

出现了一个新的SO问题,并提到了这个库 - iTextSharp - 看起来可能相关.所以问题:提取的最好方法......

Answer 2