Scrapy中的Captchas

Question

Scrapy中的Captchas

我正在开发一个Scrapy应用程序,我正在尝试使用一个使用验证码的表单登录一个网站(它不是垃圾邮件).我正在使用ImagesPipeline下载验证码,我将其打印到屏幕上供用户解决.到现在为止还挺好.

我的问题是如何重新启动蜘蛛,提交验证码/表格信息？现在我的蜘蛛请求验证码页面,然后返回一个Item包含验证码的页面image_url.然后由它处理/下载ImagesPipeline,并显示给用户.我不清楚如何恢复蜘蛛的进展,并将已解决的captcha同一个会话传递给蜘蛛,因为我相信蜘蛛必须在ImagesPipeline开始工作之前返回项目(例如退出).

我查看了文档和示例,但我没有找到任何明确说明如何实现这一点的内容.

Answer 1

use*_*ser 5

这是你如何会得到它的蜘蛛在里面工作.

self.crawler.engine.pause()
process_my_captcha()
self.crawler.engine.unpause()

Run Code Online (Sandbox Code Playgroud)

收到请求后,暂停引擎,显示图像,从用户读取信息并通过提交登录POST请求来恢复爬网.

我有兴趣知道这种方法是否适用于您的情况.

归档时间：	14 年，9 月前
查看次数：	6744 次
最近记录：	13 年，6 月前