我正在尝试抓一个网站,要求用户输入搜索值和验证码.我有一个验证码的光学字符识别(OCR)程序,大约33%的时间成功.由于验证码始终是字母文本,因此如果OCR函数返回非字母字符,我想重新加载验证码.一旦我有一个文字"单词",我想提交搜索表单.
结果返回到同一页面,表单已准备好进行新搜索和新的验证码.所以我需要冲洗并重复,直到我的搜索条件用完为止.
这是顶级算法:
我已经尝试使用管道获取验证码,但后来我没有表单提交的价值.如果我只是在不通过框架的情况下获取图像,使用urllib或其他东西,那么会话的cookie就不会被提交,因此服务器上的验证码验证失败.
什么是理想的Scrapy方式?