Mik*_* M 7 python windows ocr screen-scraping
我正在尝试PyTesseract识别从其他程序捕获的文本.结果出乎意料地糟糕.我认为这是一个简单的问题,因为扫描文件识别在20多年前相当不错.
"win32¢gui.EnumWindows(enum_cb, toplist)
winInfos = [(hwnd, title) for hwnd, title in winlist if
print("™sd process(es) found" % Len(winInfos))
wininfo = winInfos[@]
hwnd = wininfo[@]
# w2 = win32gui.Findwindow(None, “"Chrome")
for i in range(10):
eel eee"
Run Code Online (Sandbox Code Playgroud)
即使在没有缩放和不同背景和文本颜色的情况下也会变质.
我不需要完美的解决方案(这是相当实验性的项目),但至少需要足够的东西.我对如何实现/解决这个问题的方法不怎么限.仅限于Windows和Python也是非常理想的.我或多或少地认识Python,并且在整个编程方面经验丰富,但在文本识别方面却是新手.
Tesseract是我尝试过的第一个图书馆.我读到它是最好的之一.我已经知道它喜欢大字体(虽然对于截图来说,所有相同的符号总是看起来相同,我认为8像素的高度已经足够了).并看到缩放和使所有背景和文字颜色相等的帮助,但还不够.我将识别具有不同文本颜色和背景的表的内容,因此不希望偶然发现这些事情.
解决方法我看到:
你能推荐什么?
谢谢