站点由托管在亚马逊 ec2 上的匿名机器人抓取。这个机器人不尊重 robots.txt 并在网络服务器上造成高负载,所以我添加了检查请求的反向 IP 是否以“amazonaws.com”结尾,然后服务器立即返回 403 页面。
这解决了问题,但可能会导致其他问题吗?ec2 可能用于一些“好的”机器人,这会导致他们的访问问题。你能举例说明这些问题吗?
robots.txt amazon-ec2 web-crawler amazon-web-services
amazon-ec2 ×1
amazon-web-services ×1
robots.txt ×1
web-crawler ×1