从扫描文档 opencv python 中提取内衬表

Question

我想从扫描的表格中提取信息并将其存储为 csv。现在我的表提取算法执行以下步骤。

该算法适用于数字原生 pdf 和大多数扫描文档。但是，某些文档有一个嘈杂的表格，因此无法正确识别行。

这是我的算法失败的示例图像。

这些是我在这张桌子上做的操作。1.高斯模糊

2.Otsu阈值

3.形态开口

4.Canny边缘检测

5.filtered lines，如您所见，这些线条显然没有正确识别。

任何人都可以提出更好的方法来从这种质量较差的扫描中提取水平线和垂直线。

提前致谢！！

Answer 1

在这里，我们使用垂直内核来检测垂直线和水平内核来检测水平线进行形态转换，然后将它们组合起来以获得所有所需的线。

垂直线

水平线

所需输出