小编Afi*_*anh的帖子

如何从图像中的表格中提取文本?

我有结构化表格图像中的数据。数据如下:

在此处输入图片说明

我尝试使用以下代码从此图像中提取文本:

import pytesseract
from PIL import Image

value=Image.open("data/pic_table3.png")
text = pytesseract.image_to_string(value, lang="eng")    
print(text)
Run Code Online (Sandbox Code Playgroud)

并且,这是输出:

EA域名

传统角色

未来角色

技术 e 封闭平台 ¢ 开放平台

e 物理 e 虚拟化应用程序和 |e 专有 e 组织间集成 e 孤立的复合 e P2P 集成应用程序

e EAI 技术 e 软件即服务

e 企业系统 e 面向服务

e 自动化交易架构

e“信息”

互动

但是,预期的数据输出应根据列和行进行对齐。我怎样才能做到这一点?

python ocr tesseract text-extraction python-tesseract

5
推荐指数
1
解决办法
3654
查看次数