从 pdf 或图像格式的发票中提取数据

Question

我正在开发发票解析器，它从 pdf 或图像格式的发票中提取数据。它适用于具有非表格数据的简单 pdf，但提供了大量输出数据以使用包含表格的 pdf 进行处理。我无法获得有效的通用解决方案为此，我尝试了以下库

Invoice2Data : 基于模板。到目前为止，它在json格式中给出了相当好的结果。但是包含动态表的复杂pdf的模板创建很复杂。

塔布拉：表提取是基于表中的坐标是extracted.If数据表中的增加在这种情况下，给出错误的结果表长度的增加并因此坐标changes.So。

Pdftotext：它将任何 pdf 转换为文本，但格式需要我们不想要的大量解析。

Aws_Textract 和 Elis_Rossum_Ai：以 json 格式给出所有数据。但如果表列包含多行，那么 json 解析变得困难。即使给出的 json 解析的大小也很大。

正方体：与 pdftotext.Complex pdf 相同，不可解析。

除了所有这些或与上述库的组合之外，是否有人能够解析复杂的 pdf 数据，请帮忙。

Answer 1

我正在研究类似的业务问题。由于发票没有固定的格式，因此您不能直接使用任何文本解析方法。

要解决这个问题，您必须使用计算机视觉（深度学习）进行现场检测，并使用 Pytesseract OCR 将图像转换为文本。为了更好地理解这里的步骤：

希望我的回答对您有帮助！对答案进行投票，使其覆盖到最多的人。