标签: web-crawler

公司是否具有抓取我网站的隐含权利？

我发现 McAfee SiteAdvisor 已将我的网站报告为“可能存在安全问题”。

我不太关心 McAfee 对我网站的看法（我可以自己保护它，如果没有，McAfee 绝对不是我要寻求帮助的公司，非常感谢）。然而，令我困扰的是，他们显然未经我的许可就抓取了我的网站。

澄清一下：我的网站上几乎没有任何内容，只有一些占位符和一些供我个人使用的文件。没有服务条款。

我的问题是：McAffee 是否有权从我的网站下载内容/抓取我的网站？我可以禁止他们这样做吗？我有一种感觉应该有某种“我的城堡，我的规则”原则，但是我基本上对所有法律一无所知。

更新：我可能应该提到我的服务器提供商会定期向我发送有关 SiteAdvisor 调查结果的电子邮件——这就是我发现他们的“评级”的方式，这也是我生气的原因。

web-crawler

kra*_*lyk

2014 08-16

30
推荐指数

3
解决办法

8977
查看次数

网站如何检测代理或公司网络背后的机器人

大型网站（例如维基百科）如何处理隐藏在其他 IP 掩码程序后面的机器人？例如，在我的大学里，每个人都在搜索维基百科，这给它带来了很大的负担。但是，据我所知，维基百科只能知道大学路由器的 IP，所以如果我设置了一个“释放”的机器人（请求之间只有很小的延迟），维基百科可以在不禁止整个组织的情况下禁止我的机器人吗？一个网站真的可以禁止组织网络背后的 IP 吗？

web-crawler

use*_*054

2016 04-19

12
推荐指数

1
解决办法

3025
查看次数

查找属于特定 ISP 的所有 IP 范围

我遇到了某个人不断以激进的方式抓取我的网站的问题；浪费带宽和CPU资源。我已经实现了一个系统，它跟踪我的 Web 服务器访问日志，将每个新 IP 添加到数据库中，跟踪从该 IP 发出的请求数量，然后，如果相同的 IP 超过特定的请求阈值在某个时间段内，它被 iptables 阻止。这听起来可能很复杂，但据我所知，不存在旨在将某个 IP 限制为一定数量的带宽/请求的预制解决方案。

这对大多数爬虫来说都很好，但是一个非常执着的人每次被阻止时都会从他/她的 ISP 池中获取一个新 IP。我想完全阻止 ISP，但不知道如何去做。

对几个示例 IP 进行 whois，我可以看到它们都共享相同的“网络名”、“mnt-by”和“来源/AS”。有没有办法可以使用相同的 mnt-by/AS/netname 查询所有子网的 ARIN/RIPE 数据库？如果没有，我还能如何获取属于该 ISP 的每个 IP？

谢谢。

ip isp whois ip-blocking web-crawler

作者

2013 01-23

10
推荐指数

2
解决办法

3万
查看次数

这些“坏机器人”是如何找到我关闭的网络服务器的？

我不久前安装了 Apache，快速查看我的 access.log 显示各种未知 IP 正在连接，主要是状态代码 403、404、400、408。我不知道他们是如何找到的我的 IP，因为我只将它用于个人用途，并添加了一个 robots.txt 希望它能让搜索引擎远离。我阻止了索引，但没有什么真正重要的。

这些机器人（或人）如何找到服务器？发生这种情况很常见吗？这些连接是否危险/我能做些什么？

此外，许多 IP 来自各种国家，并且不解析主机名。

下面是一堆发生的事情的例子：

在一次大扫荡中，这个机器人试图找到 phpmyadmin：

"GET /w00tw00t.at.blackhats.romanian.anti-sec:) HTTP/1.1" 403 243 "-" "ZmEu"
"GET /3rdparty/phpMyAdmin/scripts/setup.php HTTP/1.1" 404 235 "-" "ZmEu"
"GET /admin/mysql/scripts/setup.php HTTP/1.1" 404 227 "-" "ZmEu"
"GET /admin/phpmyadmin/scripts/setup.php HTTP/1.1" 404 232 "-" "ZmEu"

Run Code Online (Sandbox Code Playgroud)

我得到了很多这些：

"HEAD / HTTP/1.0" 403 - "-" "-"

Run Code Online (Sandbox Code Playgroud)

很多“proxyheader.php”，我在 GET 中收到了很多带有 http:// 链接的请求

"GET http://www.tosunmail.com/proxyheader.php HTTP/1.1" 404 213 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"

Run Code Online (Sandbox Code Playgroud)

“连接”

"CONNECT 213.92.8.7:31204 HTTP/1.0" 403 - "-" "-"

Run Code Online (Sandbox Code Playgroud)

“soapCaller.bs” …

web-crawler apache-2.2

bry*_*ryc

lucky-day

8
推荐指数

1
解决办法

9363
查看次数

如何使用 robots.txt 禁止仅对我的子域进行抓取？

如果我希望我的主网站在搜索引擎上，但没有任何子域，我是否应该将“禁止所有”robots.txt 放在子域的目录中？如果我这样做了，我的主域还能被抓取吗？

robots.txt web-crawler

tkb*_*kbx

2012 09-11

8
推荐指数

2
解决办法

9655
查看次数

我如何知道 Google 抓取我网站的频率？

我已经创建了一个相对较新的网站，并将其提交给 google 和所有内容。我也使用谷歌的网站管理员工具。我想知道如何确定谷歌蜘蛛访问我网站的频率。我总是听到人们在论坛上谈论“我一小时要抓取 250 个页面”等等……有没有可以使用的软件？类似于 google 分析的 javascript 方法？或者有什么东西可以分析我的服务器的日志？谢谢

website google web-crawler

作者

lucky-day

7
推荐指数

1
解决办法

2929
查看次数

我如何限制谷歌对我的 IP 块的抓取？

我在/24网络中有几个站点，它们都被谷歌定期抓取。通常这很好。但是，当 google 同时开始抓取所有站点时，支持此 IP 块的一小组服务器可能会对负载造成很大影响。

使用 google 网站管理员工具，您可以对给定域上的 googlebot 进行速率限制，但我还没有找到一种方法来限制 IP 网络上的 bot。任何人都有这方面的经验？你怎么修好它的？

google web-crawler

Zak*_*Zak

2015 09-01

7
推荐指数

1
解决办法

4117
查看次数

access.log中的奇怪请求，如何阻止？

我在自己的服务器上使用 nginx，几天前我注意到我的 access.log 中有一些奇怪的请求：

77.50.217.37 - - [19/Aug/2011:17:50:50 +0200] "GET http://images.google.com/ HTTP/1.1" 200 151 "-" "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; WOW64; .NET CLR 1.1.4322; Media Center PC 5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET4.0C; .NET4.0E)"
174.142.123.42 - - [19/Aug/2011:17:51:59 +0200] "GET http://l08.member.ird.yahoo.com/?.src=ym&login=_420_club_chick_&passwd=112211 HTTP/1.0" 200 151 "-" "MobileRunner-J2ME"
65.52.227.217 - - [19/Aug/2011:17:52:30 +0200] "GET http://javaddiction.biz/index.php HTTP/1.1" 404 570 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
188.72.199.25 - - [19/Aug/2011:17:52:35 +0200] "CONNECT google.com:80 HTTP/1.1" 400 172 "-" "-" …

Run Code Online (Sandbox Code Playgroud)

linux http nginx web-crawler

jch*_*pem

lucky-day

5
推荐指数

1
解决办法

3390
查看次数