被robots.txt禁止禁止:scrapy

dee*_*mar 46 python web-crawler scrapy

在抓取像https://www.netflix.com这样的网站时,通过robots.txt获取禁止:https://www.netflix.com/>

错误:未下载响应:https://www.netflix.com/

Raf*_*ida 117

在2016-05-11推出的新版本(scrapy 1.1)中,抓取首先在抓取之前下载robots.txt.要settings.py使用ROBOTSTXT_OBEY更改此行为更改

ROBOTSTXT_OBEY=False
Run Code Online (Sandbox Code Playgroud)

这是发行说明