jam*_*mie 7 selenium recaptcha web-scraping selenium-chromedriver recaptcha-v3
我很好奇Recaptcha v3的工作方式。特别是浏览器指纹。
当我通过selenium / chromedriver启动chrome实例并针对ReCaptcha 3(https://recaptcha-demo.appspot.com/recaptcha-v3-request-scores.php)进行测试时,使用selenium /时我总是得到0.1分chromedriver。
在正常实例中使用隐身模式时,我得到0.3。
我通过注入JS并修改Web驱动程序对象并从源代码重新编译WebDriver并修改$ cdc_变量来击败其他检测系统。
我可以看到看起来有些混乱的POST返回到服务器,所以我将开始在那里进行挖掘。
我只是想检查是否有人愿意首先与它分享任何建议或经验,以决定我是否正在运行Selenium / chromedriver?
Deb*_*anB 38
网站可以轻松检测网络流量并将您的程序识别为BOT。Google已经发布了5(五个) reCAPTCHA供创建新站点时选择。其中四个处于活动状态并且reCAPTCHA v1正在关闭。
但是,有一些通用方法可以避免在网络抓取时被检测到:
time.sleep(secs)。在这里你可以找到关于如何在 python 中休眠 webdriver 毫秒的详细讨论一些思考:
Selenium 和Puppeteer有一些与非自动化浏览器不同的浏览器配置。此外,由于一些 JavaScript 函数被注入浏览器来操作元素,因此您需要创建一些覆盖来避免检测。
有一些很好的文章解释了有关 Selenium 和 Puppeteer 在具有检测机制的站点上运行时检测的一些要点:
检测 Chrome 无头新技术- 您可以使用它为您的机器人编写防御性代码。
它是不是能够检测和阻止谷歌浏览器无头-它解释清楚和声音的方式不同的是JavaScript代码可以通过软件自动启动了浏览器和一个真实的,以及如何检测与伪造它。
GitHub - headless-cat-n-mouse - 使用 Puppeteer + Python 来避免检测的示例
| 归档时间: |
|
| 查看次数: |
7068 次 |
| 最近记录: |