Gok*_*nan 7 user-agent bots web-crawler
样本用户代理字符串:
Mozilla / 5.0(Linux; Android 8.0; Pixel 2 Build / OPD3.170816.012)AppleWebKit / 537.36(KHTML,如Gecko)Chrome / 56.0.1511.1269 Mobile Safari / 537.36; 字节蜘蛛
Mozilla / 5.0(iPhone; CPU iPhone OS 11_0,例如Mac OS X)AppleWebKit / 537.36(KHTML,例如Gecko)Chrome / 44.0.7997.1233移动Safari / 537.36;字节蜘蛛
小智 16
我们看到了同样的事情 - 相当小的一组 Android/iOS 用户代理,全部以 Bytespider 结尾,并且全部忽略我们的robots.txt文件。我们的一位平台工程师提出了在其集群上进行反向 DNS 查找的好主意。
结果 - 这似乎是https://bytedance.com/
鉴于他们不尊重robots.txt文件,我会认为他们是块饲料。
我也在我的网站上看到了这个。它每秒都会向不存在的页面发出 GET 请求。当bytespider位于用户代理字符串中时,我会返回 403 HTTP 状态代码,并在防火墙中阻止 IP 地址(根据服务器日志定期添加它们)。大多数请求是从中国和新加坡 ISP 以及 Cloudflare 拥有的 IP 地址发出的。
请求样本:
172.69.22.98 - - [30/Sep/2019:13:16:10 +0000] "GET /CloudHD/interview-of-riyaz-14-bestfriend-secret-reveals-with-proof-yaari-hai/ZVRmSmlTQlFaRDQ.html HTTP/1.1" 403 571 "-" "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.5653.1247 Mobile Safari/537.36; Bytespider"
172.68.142.101 - - [30/Sep/2019:13:18:12 +0000] "GET /CloudHD/hot-desi-girl-big-boob-s-in-blouse-nude-selfie/WmVzSi1SOEtXTjg.html HTTP/1.1" 403 571 "-" "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.8372.1186 Mobile Safari/537.36; Bytespider"
Run Code Online (Sandbox Code Playgroud)
正如您可能猜到的那样,我的网站上没有任何与这些类似的路径。该机器人从未尝试过读取/robots.txt,因此使用此方法阻止它是没有意义的。
Semrush 机器人的行为几乎相同,直到我用/robots.txt阻止它。因此,Bytespider可能就是它被屏蔽时所呈现的样子,并且不想受到负面报道。