从文档扫描图像中没有任何网格线和边框的表格中提取数据

Question

从文档扫描图像中没有任何网格线和边框的表格中提取数据

arc*_*hkm 7 python ocr image-processing data-extraction document-layout-analysis

camelot使用和从数字 PDF 中提取表格数据非常简单tabula。但是，该解决方案不适用于文档页面的扫描图像，特别是当表格没有边框和内部网格时。我一直在尝试使用生成垂直和水平线OpenCV。然而，由于扫描图像会有轻微的旋转角度，因此很难继续该方法。

我们如何利用OpenCV为包含表格数据（以及文本段落）的扫描文档页面生成网格（水平和垂直线）和边框？如果可行，如何使扫描图像的旋转角度无效？

Answer 1

小智 1

我前段时间遇到了同样的问题，本教程就是解决该问题的方法。它解释了如何使用pdftabextract，它是 Markus Konrad 的一个 Python 库，并利用 OpenCV\xe2\x80\x99s 霍夫变换来检测线条，即使扫描的文档有点倾斜也能正常工作。本教程将引导您解析 20 年代的德国报纸\n

\n

归档时间：	5 年，11 月前
查看次数：	2112 次
最近记录：	3 年，3 月前