小编arc*_*hkm的帖子

从文档扫描图像中没有任何网格线和边框的表格中提取数据

camelot使用和从数字 PDF 中提取表格数据非常简单tabula。但是,该解决方案不适用于文档页面的扫描图像,特别是当表格没有边框和内部网格时。我一直在尝试使用生成垂直和水平线OpenCV。然而,由于扫描图像会有轻微的旋转角度,因此很难继续该方法。

我们如何利用OpenCV为包含表格数据(以及文本段落)的扫描文档页面生成网格(水平和垂直线)和边框?如果可行,如何使扫描图像的旋转角度无效?

python ocr image-processing data-extraction document-layout-analysis

7
推荐指数
1
解决办法
2112
查看次数