被robots.txt禁止禁止:scrapy

dee*_*mar 46 python web-crawler scrapy

在抓取像https://www.netflix.com这样的网站时,通过robots.txt获取禁止:https://www.netflix.com/>

错误:未下载响应:https://www.netflix.com/

在2016-05-11推出的新版本(scrapy 1.1)中,抓取首先在抓取之前下载robots.txt.要settings.py使用ROBOTSTXT_OBEY更改此行为更改

ROBOTSTXT_OBEY=False

Run Code Online (Sandbox Code Playgroud)

这是发行说明

归档时间：	9 年，9 月前
查看次数：	28253 次
最近记录：	7 年，4 月前

当Django只启动ONCE时执行代码？ 153

如何获取模块内部模块的引用？ 143

从jinja2调用python函数 130

字典词典合并 108

Python中的插入符运算符(^)有什么作用？ 103

什么是Python什么'爆炸'是为PHP？ 102

将HTML实体转换为Unicode,反之亦然 62

只有在满足条件时才添加到dict 57

怎么腌自己？ 55

使用Python的ftplib来获取目录列表,可移植 54

如何在Python中安全地创建嵌套目录？ 3909

检查shell脚本中是否存在目录 3556

如何使用JavaScript漂亮地打印JSON？ 2222

如何在C#中生成随机int数？ 1792

我怎样才能存储特定文件？ 1422

如何使用jQuery获取元素的ID？ 1320

我如何开始使用Node.js 1264

为PHP密码保护哈希和盐 1142

angular-route和angular-ui-router之间有什么区别？ 1064

测量Python中经过的时间？ 1031