小编dhr*_*rot的帖子

从表格图像中提取单个字段以使用 OCR 表现出色

我已经扫描了带有表格的图像，如下图所示：

我试图分别提取每个框并执行 OCR，但是当我尝试检测水平线和垂直线然后检测框时，它返回以下图像：

当我尝试执行其他转换来检测文本（腐蚀和膨胀）时，一些行的剩余部分仍然与如下文本一起出现：

我无法仅检测文本以执行 OCR，并且不会生成正确的边界框，如下所示：

我无法使用真实线条获得清晰分隔的框，我已经在用油漆编辑的图像（如下所示）上尝试过此操作以添加数字并且它有效。

我不知道我做错了哪一部分，但如果有什么我应该尝试或可能更改/添加我的问题，请告诉我。

#Loading all required libraries 
%pylab inline
import cv2
import numpy as np 
import pandas as pd
import pytesseract
import matplotlib.pyplot as plt
import statistics
from time import sleep
import random

img = cv2.imread('images/scan1.jpg',0)

# for adding border to an image
img1= cv2.copyMakeBorder(img,50,50,50,50,cv2.BORDER_CONSTANT,value=[255,255])

# Thresholding the image
(thresh, th3) = cv2.threshold(img1, 255, 255,cv2.THRESH_BINARY|cv2.THRESH_OTSU)

# to flip image pixel values
th3 = 255-th3

# initialize kernels for table boundaries detections
if(th3.shape[0]<1000):
    ver = np.array([[1], …

Run Code Online (Sandbox Code Playgroud)

python ocr opencv image-processing computer-vision

dhr*_*rot

2020 01-07

7
推荐指数

1
解决办法

8975
查看次数

在python中加载图像进行处理的最快方法

我想以 numpy 数组的形式在我的 8gb ram 中加载超过 10000 张图像。到目前为止，我已经尝试过 cv2.imread,keras.preprocessing.image.load_image,pil,imageio,scipy.我想以最快的方式做到这一点可能，但我不知道是哪个。

python numpy machine-learning image-processing computer-vision

dhr*_*rot

lucky-day

6
推荐指数

1
解决办法

4884
查看次数

如何在google colab中提取rar文件

我在 google 驱动器中有一个数据集，我想在google colab 中使用它。但我无法以任何方式解压rar 文件。到目前为止，我已经尝试安装 python 库和 ubuntu 包，如“unrar ，rar，unrar-free ,unar ,unp”，我就是无法打开该死的文件。以下是每个命令的结果：

!rar x 数据.rar

RAR 5.40   Copyright (c) 1993-2016 Alexander Roshal   15 Aug 2016
Trial version             Type RAR -? for help


Extracting from meta-data.rar

Cannot create meta-data/sample_submission.csv
No such file or directory
Cannot create meta-data/test.csv
No such file or directory
Cannot create meta-data/train.csv
No such file or directory
Cannot create directory meta-data
Input/output error
Total errors: 4

Run Code Online (Sandbox Code Playgroud)

!unrar …

python ubuntu rar google-colaboratory

dhr*_*rot

lucky-day

6
推荐指数

4
解决办法

2万
查看次数