Mun*_*war 4 c# ocr capture invoices iris-recognition
我正在创建一个桌面/ winform应用程序,它读取tif/pdf应付帐款发票并提取所有发票信息以存储到数据库中.
我可以阅读标准条形码(QR码,Code39等),以及一些应付发票的标准字段(发票日期,公司名称,地址)和OCR(图像的特定区域),但无法捕获订单项,数量正确.
我分两个阶段提取信息:
1.根据模板读取特定区域(特定字段的用户映射区域)
2.OCR整页并搜索应付发票标准字段名称和值
我有关于以下3种方法的想法:
1.为一种类型的发票创建模板并处理所有发票.
2.基于Nural网络的引擎,需要使用样本数据进行训练,以便根据模式进行处理.
3.表格处理,一种OMR.OCR用于查看在表单上放置字段的完全相同的坐标(在表单设计期间)
问题:
如何使用OCR或某些智能读卡器取消应付发票?
主要是我寻找一些algorithem(C#+ OCR引擎)/ philoshpy应付发票捕获,但参考一些具有相同功能或固体商业产品的SDK也会有所帮助.
我用谷歌搜索并发现Abbyy FlexiCapture引擎,IRIS Capture&Extract有点承诺但主要是基于模板或培训.他们声称不需要模板或培训,但没有任何东西看起来100自动捕获.
请参考一些产品(至少免费试用),SDK或示例/示例.
当然,到2018年情况有所改善.让我概括一下今天的主要方法:
我进行了研发并得出结论:没有专门的发票捕获 SDK 可以实现 95-100% 的自动化。只有 OCR/ICR 和成像 SDK 可以帮助将图像转换为文本/可读文档,但其余的捕获/数据提取完全基于自定义搜索算法(如上面提到的ilya-evdokimov,您需要混合步骤(区域 ocr , 全文 ocr,然后智能数据提取)。我研究了一些非常流行的产品,但他们只是声称自动捕获,但最终他们只是自动提取标准发票字段,但其余工作都是相同的区域 ocr 或手动。这就是我建议但根据自然应用程序还有更多改进: