Google Apps 脚本机器人每分钟重复抓取网站

Question

Google Apps 脚本机器人每分钟重复抓取网站

Vir*_*put 1 googlebot web-crawler google-apps-script

就在一个小时前，我启动了tailingapache日志文件（访问日志），从那时起，我注意到这个奇怪的用户代理（无法在Google的官方文档中找到它）。

我对此感到怀疑，因为我在 Google 网站上找不到有关此用户代理的任何内容，

("Mozilla/5.0 (compatible; GoogleApps script; +http://script.google.com/bot.html))

Run Code Online (Sandbox Code Playgroud)

它一整天、每分钟都在抓取我们网站的登录页面。

这是日志片段：

72.14.199.55 - - [07/Aug/2013:16:06:28 +0000] "GET / HTTP/1.1" 302 639 "-" "Mozilla/5.0 (compatible; GoogleApps script; +http://script.google.com/bot.html)"

72.14.199.55 - - [07/Aug/2013:16:06:28 +0000] "GET /accounts/login/ HTTP/1.1" 200 3780 "-" "Mozilla/5.0 (compatible; GoogleApps script; +http://script.google.com/bot.html)"

Run Code Online (Sandbox Code Playgroud)

而且一直是同一个IP。而现在仍然如此，

这种爬行模式常见吗？

Answer 1

Boo*_*ese 5

Google Apps 脚本允许用户编写基于 JavaScript 的代码并将其设置为从 Google 服务器按指定的时间间隔运行。

这不是 Google 的网络爬虫，而是 Google 用户编写的脚本。

另外：如果您阻止 IP 或其他任何内容，Google 用户可能每分钟都会收到“您的脚本无法运行”电子邮件的轰炸。

归档时间：	12 年，7 月前
查看次数：	3457 次
最近记录：	6 年，2 月前