小编N.F*_*her的帖子

将pytesseract字符串输出转换为pandas df

我收到了赛百味全天的详细销售、工人等收据,需要为管理课程提取数据。

我拍了收据的照片,然后用 pytesseract 将它们处理成由 \n 分隔的字符串,但现在不知道如何使用 pd.read_csv 和 StringIO 将其转换为数据帧。如果这是最好的方法,请不要这样做。也可能需要使用 cv2 编辑图像,以便更好地处理。

import numpy as np
import pytesseract
from PIL import Image
import pandas as pd

path = 'C:\\attachments\\'

monday = pytesseract.image_to_string(Image.open(path+'file1-1.jpeg'),lang='eng')

from StringIO import StringIO
mon = pd.read_csv(StringIO(monday),sep=r'\s',lineterminator=r'\n')
print(mon)
Run Code Online (Sandbox Code Playgroud)

这是当前星期一的一些变量。

"\nTIME HOURS :\nPERIOD SALES UNITS WORKED PROD SPLH\nZhan emmoo «Ct (iti ;:t‘«é‘«‘i CSD\n3A-4A $0.00 0 0 0 $0.00\n44-54 =: $0.00 SssOO 0 0 $0.00\n5A-6A $0.00 0 0 0 $0.00\nbA-7A $0.00 0 0 0 $0.00\n7A-BA =s«$0.00-Sss«OOs«*O0.80 0 $0.00\nBA-9A 60,00 . …
Run Code Online (Sandbox Code Playgroud)

stringio python-imaging-library pandas pytesser

3
推荐指数
1
解决办法
4400
查看次数