网站特别难以爬行和刮擦?

Dav*_*att 11 screen-scraping web-crawler web-scraping

我对面向公众的网站(登录/身份验证后面没有任何内容)感兴趣,其中包括:

  • 高度使用内部301和302重定向
  • 防刮措施(但不能通过robots.txt禁止抓取)
  • 非语义或无效标记
  • 内容通过AJAX以onclicks或无限滚动的形式加载
  • 网址中使用了大量参数
  • 典型问题
  • 复杂的内部链接结构
  • 以及其他任何通常使抓取网站的事情都让人头疼!

我已经构建了一个爬虫/蜘蛛,它可以在一个网站上进行一系列的分析,而我正在寻找会让它变得困难的网站.

fly*_*yer 3

这里有一些:

  • 通过 AJAX 以 onclicks 或无限滚动的形式加载内容
    • 兴趣
    • 该页面中的评论
      这是一个中文商品页面,其评论是通过AJAX加载的,通过在浏览器中向下滚动滚动条或根据浏览器的高度来触发。我必须使用 PhantomJS 和 xvfb 来触发此类操作。
  • 反抓取措施(但不通过robots.txt禁止爬虫)
    • 亚马逊下一页
      我爬取了中国的亚马逊网站,当我想爬取此类页面中的下一页时,可能会修改请求,导致无法获取真正的下一页
    • stackoverflow
      有访问频率限制。前几天,我想获取stackoverflow中的所有标签,并将spider的访问频率设置为10,但是被stackoverflow警告了……下面是截图。之后我必须使用代理来爬行 stackoverflow。
  • 以及其他通常使爬行网站变得令人头疼的事情
    • 1号店
      这是一个中国电子商务网站,当您在浏览器中访问它时,它会显示您的位置,并会根据您的位置提供一些商品。
    • 等等。
      有很多类似上述的网站会根据您所在的位置提供不同的内容。当您抓取此类网站时,您得到的内容与您在浏览器中看到的内容不同。通过蜘蛛发出请求时,通常需要设置 cookie。

去年我遇到一个网站,在发出请求时需要http请求标头一些cookie,但我不记得那个网站了......