小编Sus*_*hil的帖子

如何设置Scrapy来处理验证码

我正在尝试抓一个网站,要求用户输入搜索值和验证码.我有一个验证码的光学字符识别(OCR)程序,大约33%的时间成功.由于验证码始终是字母文本,因此如果OCR函数返回非字母字符,我想重新加载验证码.一旦我有一个文字"单词",我想提交搜索表单.

结果返回到同一页面,表单已准备好进行新搜索和新的验证码.所以我需要冲洗并重复,直到我的搜索条件用完为止.

这是顶级算法:

  1. 最初加载页面
  2. 下载验证码图像,通过OCR运行它
  3. 如果OCR没有返回纯文本结果,请刷新验证码并重复此步骤
  4. 使用搜索词和验证码在页面中提交查询表单
  5. 检查响应以查看验证码是否正确
  6. 如果是正确的,请抓取数据
  7. 转到2

我已经尝试使用管道获取验证码,但后来我没有表单提交的价值.如果我只是在不通过框架的情况下获取图像,使用urllib或其他东西,那么会话的cookie就不会被提交,因此服务器上的验证码验证失败.

什么是理想的Scrapy方式?

python captcha scrapy web-scraping

15
推荐指数
1
解决办法
1万
查看次数

标签 统计

captcha ×1

python ×1

scrapy ×1

web-scraping ×1