Fer*_*min 6 pdf extraction sql-server-2008
我的公司通过Excel从外部公司接收数据.我们将其导出到SQL Server以运行数据报告.他们现在正在改为PDF格式,有没有办法可靠地从PDF中移植数据并将其插入我们的SQL Server 2008数据库?
这需要编写应用程序还是有自动执行此操作的方法?
前面已经提到-你将不得不编写一个应用程序来做到这一点,但最好你就能够得到来自外部公司的原始数据,而不必处理PDF.
但是,如果您确实想从PDF中提取数据,我已经使用了iText,发现它非常强大,可靠,最重要的是 - 免费.它有Java和.Net风格 - iTextSharp是.Net版本.它允许您以编程方式操作PDF文档,它会将PDF的内容暴露给您编写的应用程序.
这完全取决于他们如何将数据包含在 PDF 中。一般来说,这里有两种可能的情况:
数据只是 PDF 中的文本对象。您需要使用工具从 PDF 中提取文本,然后将其插入数据库中。
数据包含在 PDF 的表单字段中。您需要使用工具从表单字段中提取数据并将其插入数据库中。
希望场景 #2 适用于您,因为这正是 PDF 表单的设计目的。场景 #1 实际上只是一个 hack,只有在没有任何其他选择的情况下才会使用。从 PDF 中提取纯文本并不像您想象的那么简单或准确。
如果您收到 PDF 表单,那么您所需要做的就是将 PDF 表单中的正确字段与数据库中的相应字段进行匹配,然后吸收数据。如果您编写自己的应用程序,此过程可以完全自动化。
这是否需要编写一个应用程序,或者是否有一种自动化的方法来做到这一点?
是的,这两个选项都需要编写应用程序或购买应用程序。如果您编写自己的应用程序,那么您需要找到一个支持从表单字段检索数据或从 PDF 中提取文本的第三方 PDF 库。