是否有一些标准的持续时间,爬虫必须在重复命中到同一服务器之间等待,以免使服务器负担过重.
如果没有,任何关于什么可以是一个良好的等待时间的爬虫被认为礼貌的建议.
此值是否因服务器而异...如果是这样,如何确定它?
这将取决于内容更改的频率。例如,与包含静态文章的网站相比,更频繁地抓取新闻网站是有意义的。
至于到底如何确定最佳方案,这取决于您如何根据最新数据的价值来判断获取、索引等的成本。这完全取决于您 - 但您可能必须根据观察使用一些启发式方法来计算出网站随时间的变化程度。如果某个网站连续 3 次提取都没有发生变化,您可能需要等待更长的时间才能进行下一次提取。相反,如果站点每次获取时都会发生变化,则您可能需要更加积极地避免丢失更新。
| 归档时间: |
|
| 查看次数: |
1310 次 |
| 最近记录: |