Qui*_*Par 3 web-hosting scraping
是否有iplists.com的官方 API ,我可以从那里获取蜘蛛列表?
我的目的是将这些 IP 列入白名单以进行站点抓取。
我不知道,它可以随时更改,由机器人操作员自行决定。
问题在于,如果/当我们的爬虫的 IP 范围发生变化时,并不是每个人都知道要检查。事实上,抓取团队在几年前迁移了 Googlebot IP,向硬编码 IP 范围的网站管理员发出警报确实很麻烦。
他们建议使用 DNS 检查(正向和反向)来验证:
告诉网站管理员根据具体情况使用 DNS 进行验证似乎是最好的方法。我认为推荐的技术是进行反向 DNS 查找,验证名称是否在 googlebot.com 域中,然后使用该 googlebot.com 名称进行相应的正向 DNS->IP 查找;例如:
$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
$ host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
我认为仅进行反向 DNS 查找是不够的,因为欺骗者可以设置反向 DNS 以指向 crawl-abcd.googlebot.com。
这可能是最好的一般建议,但它有点资源密集型(用于 DNS 查找的 CPU 周期)。