小编Dee*_*Raj的帖子

使用python进行Pytesseract外语提取

我在Windows机器上使用Python 2.7,Pytesseract-0.1.7和Tesseract-ocr 3.05.01.

我试图提取韩语和俄语的文本,我很肯定我提取了.

现在我需要与从图像中提取的字符串和字符串进行比较.

我无法比较字符串并获得正确的结果,它只是说不匹配.

这是我的代码:

# -*- coding: utf-8 -*-
from PIL import Image
import pytesseract
import argparse
ap = argparse.ArgumentParser()
ap.add_argument("-i", "--input", required=True, help="path to the image")
args = vars(ap.parse_args())
img = Image.open(args["input"])
img.load()
text = pytesseract.image_to_string(img)
print(text)
text = text.encode('ascii')
print(text)
i = '????. ????????'
print i
if ( text == i):
    print "Match"
else :
    print "Not Match"

Run Code Online (Sandbox Code Playgroud)

附加用于提取文本的图像.

现在我需要一种方法来匹配它.而且我还需要知道从pytesseract中提取的字符串将是Unicode还是什么？如果有办法将其转换为Unicode(就像我们在wordpad中有选项将字符转换为Unicode)