如何从PDF中提取数据？

Question

我的公司通过Excel从外部公司接收数据.我们将其导出到SQL Server以运行数据报告.他们现在正在改为PDF格式,有没有办法可靠地从PDF中移植数据并将其插入我们的SQL Server 2008数据库？

这需要编写应用程序还是有自动执行此操作的方法？

Answer 1

前面已经提到-你将不得不编写一个应用程序来做到这一点,但最好你就能够得到来自外部公司的原始数据,而不必处理PDF.

但是,如果您确实想从PDF中提取数据,我已经使用了iText,发现它非常强大,可靠~~,最重要的是 - 免费~~.它有Java和.Net风格 - iTextSharp是.Net版本.它允许您以编程方式操作PDF文档,它会将PDF的内容暴露给您编写的应用程序.

Answer 2

这完全取决于他们如何将数据包含在 PDF 中。一般来说，这里有两种可能的情况：

希望场景 #2 适用于您，因为这正是 PDF 表单的设计目的。场景 #1 实际上只是一个 hack，只有在没有任何其他选择的情况下才会使用。从 PDF 中提取纯文本并不像您想象的那么简单或准确。

如果您收到 PDF 表单，那么您所需要做的就是将 PDF 表单中的正确字段与数据库中的相应字段进行匹配，然后吸收数据。如果您编写自己的应用程序，此过程可以完全自动化。

这是否需要编写一个应用程序，或者是否有一种自动化的方法来做到这一点？

是的，这两个选项都需要编写应用程序或购买应用程序。如果您编写自己的应用程序，那么您需要找到一个支持从表单字段检索数据或从 PDF 中提取文本的第三方 PDF 库。