蜘蛛和“官方”网络机器人的 IP 地址

Qui*_*Par 3 web-hosting scraping

是否有iplists.com的官方 API ,我可以从那里获取蜘蛛列表?

我的目的是将这些 IP 列入白名单以进行站点抓取。

vor*_*aq7 8

我不知道,它可以随时更改,由机器人操作员自行决定。

谷歌对此提供了一些具体的指导和解释

问题在于,如果/当我们的爬虫的 IP 范围发生变化时,并不是每个人都知道要检查。事实上,抓取团队在几年前迁移了 Googlebot IP,向硬编码 IP 范围的网站管理员发出警报确实很麻烦。

他们建议使用 DNS 检查(正向反向)来验证:

告诉网站管理员根据具体情况使用 DNS 进行验证似乎是最好的方法。我认为推荐的技术是进行反向 DNS 查找,验证名称是否在 googlebot.com 域中,然后使用该 googlebot.com 名称进行相应的正向 DNS->IP 查找;例如:

$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

$ host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

我认为仅进行反向 DNS 查找是不够的,因为欺骗者可以设置反向 DNS 以指向 crawl-abcd.googlebot.com。

这可能是最好的一般建议,但它有点资源密集型(用于 DNS 查找的 CPU 周期)。