iTe*_*ech 1 spam varnish web-crawler
我的网站受到垃圾邮件机器人和爬虫程序的严重打击。我使用过 Cloudflare,但问题仍然存在。问题是垃圾邮件机器人访问不存在的 url 给我的 Drupal 后端造成了大量负载,这一路走来,引导数据库只是为了提供 404 错误文档。
我不能简单地为所有未找到页面的错误抛出非drupal 404,因为我需要让drupal 捕获它们。因为,varnish 在前面,它可以检查机器人是否表现良好并要求提供有效的 url - 如果不是,它会为它们提供 404 或 403。这些机器人使用这种模式导致错误:
http://www.megaleecher.net/http:/www.megaleecher.net/Using_iPhone_As_USB_Mass_S/Using_iPhone_As_USB_Mass_S/Using_iPhone_As_USB_Mass_S/Using_iPhone_As_USB_Mass_S/Using_iPhone_As_USB_Mass_S/Using_iPhone_As_USB_Mass_S/Using_iPhone_As_USB_Mass_S/Using_iPhone_As_USB_Mass_Storage
Run Code Online (Sandbox Code Playgroud)
现在,请。建议使用正则表达式 varnbisg VCL 指令来捕获此 URL 模式并提供来自 varnish 的 404 错误,从而阻止它到达 apache/drupal ?
小智 5
您是否尝试过寻找以 /http 开头的 url 路径?
if (req.url ~ "^/https?:") {
error 404 "Not found"
}
Run Code Online (Sandbox Code Playgroud)