如何找出我的网站正在刮?

Igo*_*kin 6 screen-scraping web-scraping web

如何找出我的网站正在刮?

我有点意见......

  1. 网络带宽占用,导致吞吐量问题(如果使用代理,则匹配).
  2. 当在搜索引擎中搜索关键词时,新的引用会出现在具有相同内容的其他类似资源中(如果使用了代理,则匹配).
  3. 多个来自同一IP的请求.
  4. 来自单个IP的高请求率.(顺便说一下:什么是正常价格?)
  5. 无头或奇怪的用户代理(如果使用代理,则匹配).
  6. 从相同的IP请求具有可预测(相等)的间隔.
  7. 从不请求某些支持文件,例如.favicon.ico,各种CSS和javascript文件(如果使用代理,则匹配).
  8. 客户端的请求顺序.防爆.客户端访问不是直接访问的页面(如果使用代理,则匹配)

你会在这个列表中添加更多内容吗?

如果刮刀使用代理,可能适合/匹配哪些点?

sar*_*rin 1

我还会添加对同一个人何时提出请求的分析。例如,如果同一 IP 地址每天在同一时间请求相同的数据,则该过程很可能是按照自动计划进行的。所以很可能会被刮...

可能添加对每个用户会话影响的页面数量的分析。例如,如果特定用户在特定日期浏览了您网站中的每个页面,并且您认为这不寻常,那么可能是另一个指标。

感觉就像您需要一系列指标,并且需要对它们进行评分,并将分数结合起来以显示谁最有可能进行抓取。