标签: web-crawler

公司是否具有抓取我网站的隐含权利?

我发现 McAfee SiteAdvisor 已将我的网站报告为“可能存在安全问题”

我不太关心 McAfee 对我网站的看法(我可以自己保护它,如果没有,McAfee 绝对不是我要寻求帮助的公司,非常感谢)。然而,令我困扰的是,他们显然未经我的许可就抓取了我的网站。

澄清一下:我的网站上几乎没有任何内容,只有一些占位符和一些供我个人使用的文件。没有服务条款。

我的问题是:McAffee 是否有权从我的网站下载内容/抓取我的网站?我可以禁止他们这样做吗?我有一种感觉应该有某种“我的城堡,我的规则”原则,但是我基本上对所有法律一无所知。

更新:我可能应该提到我的服务器提供商会定期向我发送有关 SiteAdvisor 调查结果的电子邮件——这就是我发现他们的“评级”的方式,这也是我生气的原因。

web-crawler

30
推荐指数
3
解决办法
8977
查看次数

网站如何检测代理或公司网络背后的机器人

大型网站(例如维基百科)如何处理隐藏在其他 IP 掩码程序后面的机器人?例如,在我的大学里,每个人都在搜索维基百科,这给它带来了很大的负担。但是,据我所知,维基百科只能知道大学路由器的 IP,所以如果我设置了一个“释放”的机器人(请求之间只有很小的延迟),维基百科可以在不禁止整个组织的情况下禁止我的机器人吗?一个网站真的可以禁止组织网络背后的 IP 吗?

web-crawler

12
推荐指数
1
解决办法
3025
查看次数

查找属于特定 ISP 的所有 IP 范围

我遇到了某个人不断以激进的方式抓取我的网站的问题;浪费带宽和CPU资源。我已经实现了一个系统,它跟踪我的 Web 服务器访问日志,将每个新 IP 添加到数据库中,跟踪从该 IP 发出的请求数量,然后,如果相同的 IP 超过特定的请求阈值在某个时间段内,它被 iptables 阻止。这听起来可能很复杂,但据我所知,不存在旨在将某个 IP 限制为一定数量的带宽/请求的预制解决方案。

这对大多数爬虫来说都很好,但是一个非常执着的人每次被阻止时都会从他/她的 ISP 池中获取一个新 IP。我想完全阻止 ISP,但不知道如何去做。

对几个示例 IP 进行 whois,我可以看到它们都共享相同的“网络名”、“mnt-by”和“来源/AS”。有没有办法可以使用相同的 mnt-by/AS/netname 查询所有子网的 ARIN/RIPE 数据库?如果没有,我还能如何获取属于该 ISP 的每个 IP?

谢谢。

ip isp whois ip-blocking web-crawler

10
推荐指数
2
解决办法
3万
查看次数

这些“坏机器人”是如何找到我关闭的网络服务器的?

我不久前安装了 Apache,快速查看我的 access.log 显示各种未知 IP 正在连接,主要是状态代码 403、404、400、408。我不知道他们是如何找到的我的 IP,因为我只将它用于个人用途,并添加了一个 robots.txt 希望它能让搜索引擎远离。我阻止了索引,但没有什么真正重要的。

这些机器人(或人)如何找到服务器?发生这种情况很常见吗?这些连接是否危险/我能做些什么?

此外,许多 IP 来自各种国家,并且不解析主机名。

下面是一堆发生的事情的例子:

在一次大扫荡中,这个机器人试图找到 phpmyadmin:

"GET /w00tw00t.at.blackhats.romanian.anti-sec:) HTTP/1.1" 403 243 "-" "ZmEu"
"GET /3rdparty/phpMyAdmin/scripts/setup.php HTTP/1.1" 404 235 "-" "ZmEu"
"GET /admin/mysql/scripts/setup.php HTTP/1.1" 404 227 "-" "ZmEu"
"GET /admin/phpmyadmin/scripts/setup.php HTTP/1.1" 404 232 "-" "ZmEu"
Run Code Online (Sandbox Code Playgroud)

我得到了很多这些:

"HEAD / HTTP/1.0" 403 - "-" "-"
Run Code Online (Sandbox Code Playgroud)

很多“proxyheader.php”,我在 GET 中收到了很多带有 http:// 链接的请求

"GET http://www.tosunmail.com/proxyheader.php HTTP/1.1" 404 213 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
Run Code Online (Sandbox Code Playgroud)

“连接”

"CONNECT 213.92.8.7:31204 HTTP/1.0" 403 - "-" "-"
Run Code Online (Sandbox Code Playgroud)

“soapCaller.bs” …

web-crawler apache-2.2

8
推荐指数
1
解决办法
9363
查看次数

如何使用 robots.txt 禁止仅对我的子域进行抓取?

如果我希望我的主网站在搜索引擎上,但没有任何子域,我是否应该将“禁止所有”robots.txt 放在子域的目录中?如果我这样做了,我的主域还能被抓取吗?

robots.txt web-crawler

8
推荐指数
2
解决办法
9655
查看次数

我如何知道 Google 抓取我网站的频率?

我已经创建了一个相对较新的网站,并将其提交给 google 和所有内容。我也使用谷歌的网站管理员工具。我想知道如何确定谷歌蜘蛛访问我网站的频率。我总是听到人们在论坛上谈论“我一小时要抓取 250 个页面”等等……有没有可以使用的软件?类似于 google 分析的 javascript 方法?或者有什么东西可以分析我的服务器的日志?谢谢

website google web-crawler

7
推荐指数
1
解决办法
2929
查看次数

我如何限制谷歌对我的 IP 块的抓取?

我在/24网络中有几个站点,它们都被谷歌定期抓取。通常这很好。但是,当 google 同时开始抓取所有站点时,支持此 IP 块的一小组服务器可能会对负载造成很大影响。

使用 google 网站管理员工具,您可以对给定域上的 googlebot 进行速率限制,但我还没有找到一种方法来限制 IP 网络上的 bot。任何人都有这方面的经验?你怎么修好它的?

google web-crawler

7
推荐指数
1
解决办法
4117
查看次数

access.log中的奇怪请求,如何阻止?

我在自己的服务器上使用 nginx,几天前我注意到我的 access.log 中有一些奇怪的请求:

77.50.217.37 - - [19/Aug/2011:17:50:50 +0200] "GET http://images.google.com/ HTTP/1.1" 200 151 "-" "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; WOW64; .NET CLR 1.1.4322; Media Center PC 5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET4.0C; .NET4.0E)"
174.142.123.42 - - [19/Aug/2011:17:51:59 +0200] "GET http://l08.member.ird.yahoo.com/?.src=ym&login=_420_club_chick_&passwd=112211 HTTP/1.0" 200 151 "-" "MobileRunner-J2ME"
65.52.227.217 - - [19/Aug/2011:17:52:30 +0200] "GET http://javaddiction.biz/index.php HTTP/1.1" 404 570 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
188.72.199.25 - - [19/Aug/2011:17:52:35 +0200] "CONNECT google.com:80 HTTP/1.1" 400 172 "-" "-" …
Run Code Online (Sandbox Code Playgroud)

linux http nginx web-crawler

5
推荐指数
1
解决办法
3390
查看次数

Google 的网络蜘蛛多久抓取一次网络?

在对我网站的 HTML 进行一些更改后几个小时,我发现 Google 已针对我的网站更新了其搜索结果。互联网这么大,谷歌爬虫是怎么做到的?它不会占用太多带宽吗?

internet google web-crawler

4
推荐指数
1
解决办法
386
查看次数

谷歌的网络爬虫会下载二进制文件吗?

我的 Google-fu 现在让我失望了。

我试图弄清楚 Google 的网络爬虫在抓取网站时是否会下载非图像二进制文件。我知道它会下载(和索引)图像和 PDF,但是 .zip、.dmg 等文件呢?

我的客户在他们的网站上提供了大量可供下载的软件包,他们试图弄清楚搜索引擎是否占据了涉及这些文件的大部分带宽。

bandwidth google web-crawler

4
推荐指数
1
解决办法
1112
查看次数