10 python recaptcha web-scraping python-2.7
我目前正在尝试解决reCaptcha问题.收到的建议之一是称为令牌耕作的方法.
例如,可以从另一个站点获取reCaptcha令牌,并在2分钟内,将其中一个养殖令牌应用到我正在尝试通过更改后面站点代码来解决的站点.
不幸的是,无法进一步解释如何这样做,尤其是改变网站背面的代码.
如果任何人能够详细阐述或提供有关流程的见解,我们将非常感谢您的专业知识.
此处详细描述了令牌农/令牌收获:https://www.blackhat.com/docs/asia-16/materials/asia-16-Sivakorn-Im-Not-a-Human-Breaking-the-Google-验证码,wp.pdf
本文讨论的"令牌耕作"方法基于以下机制:
recaptcha-token.(更多细节可以从他们的代码中提取:https://github.com/neuroradiology/InsideReCaptcha)
意味着,如果可以为目标站点创建大量新鲜和干净的令牌并将其老化9天(这就是文章发现的内容),这些令牌可用于访问重新访问一些受保护的站点,然后再看到重新访问.
根据我的理解,这样一个新的令牌必须作为Cookie传递给相关网站.
不过我记得曾经在某个地方读过谷歌在这次演讲后的几天内缩小了这个差距
也很可能还有其他类似的方法被标记为"代币养殖".
据我所知,所有这些方法都利用了recaptcha系统中的漏洞,这些漏洞被谷歌关闭得非常快 - 甚至在论文或演示文稿公开之前,因为负责任的作者通常会事先通知谷歌.
所以对你来说,这很可能只是学术价值,或者是为了学习如何正确保护验证码系统和基于令牌的服务.
更新
快速检查几个重新访问受保护的站点显示当前系统现在扰乱cookie,但recaptcha-token可以在recaptcha形式中找到两个隐藏的输入元素,具有部分不同的值和id ="recaptcha-token".
当您使用干净的浏览器访问此类页面时,您将获得一个新的重新签名令牌,您可以将其保存并在以后需要时插入到同一表单中.至少这是理论,很可能所有的cookie和一些长期持久的东西都会让你无法做到这一点.