小编Xav*_*ina的帖子

pytesseract不适用于一位数的图像

我有使用pytesseract的代码和完美的工作,只有当我尝试识别的图像是0到9时才工作.如果图像只有一个数字不给任何结果.

这是我正在使用的图片示例 https://drive.google.com/folderview?id=0B68PDhV5SW8BdFdWYVRwODBVZk0&usp=sharing

这就是我正在使用的代码

    import pytesseract
    varnum= pytesseract.image_to_string(Image.open('images/table/img.jpg'))
    varnum = float(varnum)
    print varnum    
Run Code Online (Sandbox Code Playgroud)

谢谢!!!!

使用此代码,我可以读取所有数字

import pytesseract


start_time = time.clock()
y = pytesseract.image_to_string(Image.open('images/table/1.jpg'),config='-psm 10000')
x = pytesseract.image_to_string(Image.open('images/table/1.jpg'),config='-psm 10000')

print y
print x

y = pytesseract.image_to_string(Image.open('images/table/68.5.jpg'),config='-psm 10000')
x = pytesseract.image_to_string(Image.open('images/table/68.5.jpg'),config='-psm 10000')

print y
print x

print time.clock() - start_time, "seconds" 
Run Code Online (Sandbox Code Playgroud)

结果

>>> 
1
1
68.5
68.5
0.485644155358 seconds
>>> 
Run Code Online (Sandbox Code Playgroud)

python ocr

7
推荐指数
1
解决办法
8900
查看次数

获取文件夹中的pdf文件列表

我想获取文件夹中所有pdf文件的名称列表我有我的python脚本.

现在我有这个代码:

files = [f for f in os.listdir('.') if os.path.isfile(f)]
for f in files:

e = (len(files) - 1)
Run Code Online (Sandbox Code Playgroud)

问题是这段代码找到了文件夹中的所有文件(包括.py)所以我"修复"如果我的脚本是文件夹中的最后一个文件(zzzz.py),后来我减去列表的最后一个文件是我的脚本. PY.

我尝试了很多代码只能找到.pdf,但这越接近我.

python

3
推荐指数
5
解决办法
8834
查看次数

标签 统计

python ×2

ocr ×1