网站特别难以爬行和刮擦？

Question

我对面向公众的网站(登录/身份验证后面没有任何内容)感兴趣,其中包括:

我已经构建了一个爬虫/蜘蛛,它可以在一个网站上进行一系列的分析,而我正在寻找会让它变得困难的网站.

Answer 1

这里有一些：

通过 AJAX 以 onclicks 或无限滚动的形式加载内容
- 兴趣
- 该页面中的评论
  这是一个中文商品页面，其评论是通过AJAX加载的，通过在浏览器中向下滚动滚动条或根据浏览器的高度来触发。我必须使用 PhantomJS 和 xvfb 来触发此类操作。
反抓取措施（但不通过robots.txt禁止爬虫）
- 亚马逊下一页
  我爬取了中国的亚马逊网站，当我想爬取此类页面中的下一页时，可能会修改请求，导致无法获取真正的下一页
- stackoverflow
  有访问频率限制。前几天，我想获取stackoverflow中的所有标签，并将spider的访问频率设置为10，但是被stackoverflow警告了……下面是截图。之后我必须使用代理来爬行 stackoverflow。
以及其他通常使爬行网站变得令人头疼的事情
- 1号店
  这是一个中国电子商务网站，当您在浏览器中访问它时，它会显示您的位置，并会根据您的位置提供一些商品。
- 等等。
  有很多类似上述的网站会根据您所在的位置提供不同的内容。当您抓取此类网站时，您得到的内容与您在浏览器中看到的内容不同。通过蜘蛛发出请求时，通常需要设置 cookie。

去年我遇到一个网站，在发出请求时需要http请求标头和一些cookie，但我不记得那个网站了......