我发现 McAfee SiteAdvisor 已将我的网站报告为“可能存在安全问题”。
我不太关心 McAfee 对我网站的看法(我可以自己保护它,如果没有,McAfee 绝对不是我要寻求帮助的公司,非常感谢)。然而,令我困扰的是,他们显然未经我的许可就抓取了我的网站。
澄清一下:我的网站上几乎没有任何内容,只有一些占位符和一些供我个人使用的文件。没有服务条款。
我的问题是:McAffee 是否有权从我的网站下载内容/抓取我的网站?我可以禁止他们这样做吗?我有一种感觉应该有某种“我的城堡,我的规则”原则,但是我基本上对所有法律一无所知。
更新:我可能应该提到我的服务器提供商会定期向我发送有关 SiteAdvisor 调查结果的电子邮件——这就是我发现他们的“评级”的方式,这也是我生气的原因。
大型网站(例如维基百科)如何处理隐藏在其他 IP 掩码程序后面的机器人?例如,在我的大学里,每个人都在搜索维基百科,这给它带来了很大的负担。但是,据我所知,维基百科只能知道大学路由器的 IP,所以如果我设置了一个“释放”的机器人(请求之间只有很小的延迟),维基百科可以在不禁止整个组织的情况下禁止我的机器人吗?一个网站真的可以禁止组织网络背后的 IP 吗?
我遇到了某个人不断以激进的方式抓取我的网站的问题;浪费带宽和CPU资源。我已经实现了一个系统,它跟踪我的 Web 服务器访问日志,将每个新 IP 添加到数据库中,跟踪从该 IP 发出的请求数量,然后,如果相同的 IP 超过特定的请求阈值在某个时间段内,它被 iptables 阻止。这听起来可能很复杂,但据我所知,不存在旨在将某个 IP 限制为一定数量的带宽/请求的预制解决方案。
这对大多数爬虫来说都很好,但是一个非常执着的人每次被阻止时都会从他/她的 ISP 池中获取一个新 IP。我想完全阻止 ISP,但不知道如何去做。
对几个示例 IP 进行 whois,我可以看到它们都共享相同的“网络名”、“mnt-by”和“来源/AS”。有没有办法可以使用相同的 mnt-by/AS/netname 查询所有子网的 ARIN/RIPE 数据库?如果没有,我还能如何获取属于该 ISP 的每个 IP?
谢谢。
我不久前安装了 Apache,快速查看我的 access.log 显示各种未知 IP 正在连接,主要是状态代码 403、404、400、408。我不知道他们是如何找到的我的 IP,因为我只将它用于个人用途,并添加了一个 robots.txt 希望它能让搜索引擎远离。我阻止了索引,但没有什么真正重要的。
这些机器人(或人)如何找到服务器?发生这种情况很常见吗?这些连接是否危险/我能做些什么?
此外,许多 IP 来自各种国家,并且不解析主机名。
下面是一堆发生的事情的例子:
在一次大扫荡中,这个机器人试图找到 phpmyadmin:
"GET /w00tw00t.at.blackhats.romanian.anti-sec:) HTTP/1.1" 403 243 "-" "ZmEu"
"GET /3rdparty/phpMyAdmin/scripts/setup.php HTTP/1.1" 404 235 "-" "ZmEu"
"GET /admin/mysql/scripts/setup.php HTTP/1.1" 404 227 "-" "ZmEu"
"GET /admin/phpmyadmin/scripts/setup.php HTTP/1.1" 404 232 "-" "ZmEu"
Run Code Online (Sandbox Code Playgroud)
我得到了很多这些:
"HEAD / HTTP/1.0" 403 - "-" "-"
Run Code Online (Sandbox Code Playgroud)
很多“proxyheader.php”,我在 GET 中收到了很多带有 http:// 链接的请求
"GET http://www.tosunmail.com/proxyheader.php HTTP/1.1" 404 213 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
Run Code Online (Sandbox Code Playgroud)
“连接”
"CONNECT 213.92.8.7:31204 HTTP/1.0" 403 - "-" "-"
Run Code Online (Sandbox Code Playgroud)
“soapCaller.bs” …
如果我希望我的主网站在搜索引擎上,但没有任何子域,我是否应该将“禁止所有”robots.txt 放在子域的目录中?如果我这样做了,我的主域还能被抓取吗?
我已经创建了一个相对较新的网站,并将其提交给 google 和所有内容。我也使用谷歌的网站管理员工具。我想知道如何确定谷歌蜘蛛访问我网站的频率。我总是听到人们在论坛上谈论“我一小时要抓取 250 个页面”等等……有没有可以使用的软件?类似于 google 分析的 javascript 方法?或者有什么东西可以分析我的服务器的日志?谢谢
我在/24网络中有几个站点,它们都被谷歌定期抓取。通常这很好。但是,当 google 同时开始抓取所有站点时,支持此 IP 块的一小组服务器可能会对负载造成很大影响。
使用 google 网站管理员工具,您可以对给定域上的 googlebot 进行速率限制,但我还没有找到一种方法来限制 IP 网络上的 bot。任何人都有这方面的经验?你怎么修好它的?
我在自己的服务器上使用 nginx,几天前我注意到我的 access.log 中有一些奇怪的请求:
77.50.217.37 - - [19/Aug/2011:17:50:50 +0200] "GET http://images.google.com/ HTTP/1.1" 200 151 "-" "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; WOW64; .NET CLR 1.1.4322; Media Center PC 5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET4.0C; .NET4.0E)"
174.142.123.42 - - [19/Aug/2011:17:51:59 +0200] "GET http://l08.member.ird.yahoo.com/?.src=ym&login=_420_club_chick_&passwd=112211 HTTP/1.0" 200 151 "-" "MobileRunner-J2ME"
65.52.227.217 - - [19/Aug/2011:17:52:30 +0200] "GET http://javaddiction.biz/index.php HTTP/1.1" 404 570 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
188.72.199.25 - - [19/Aug/2011:17:52:35 +0200] "CONNECT google.com:80 HTTP/1.1" 400 172 "-" "-" …Run Code Online (Sandbox Code Playgroud) 在对我网站的 HTML 进行一些更改后几个小时,我发现 Google 已针对我的网站更新了其搜索结果。互联网这么大,谷歌爬虫是怎么做到的?它不会占用太多带宽吗?
我的 Google-fu 现在让我失望了。
我试图弄清楚 Google 的网络爬虫在抓取网站时是否会下载非图像二进制文件。我知道它会下载(和索引)图像和 PDF,但是 .zip、.dmg 等文件呢?
我的客户在他们的网站上提供了大量可供下载的软件包,他们试图弄清楚搜索引擎是否占据了涉及这些文件的大部分带宽。
web-crawler ×10
google ×4
apache-2.2 ×1
bandwidth ×1
http ×1
internet ×1
ip ×1
ip-blocking ×1
isp ×1
linux ×1
nginx ×1
robots.txt ×1
website ×1
whois ×1