DAR*_*AAD 6 python robots.txt web-crawler scrapy scrapy-shell
我在几个网站上使用Scrapy shell没有问题,但是当机器人(robots.txt)不允许访问网站时我发现问题.如何通过Scrapy禁用机器人检测(忽略存在)?先感谢您.
我不是在谈论Scrapy创建的项目,而是Scrapy shell命令:scrapy shell 'www.example.com'
如果从项目目录运行scrapy,scrapy shell将使用项目settings.py。如果您在项目外部运行,则scrapy将使用默认设置。但是,您可以通过--set标志覆盖和添加设置。
因此,要关闭ROBOTSTXT_OBEY设置,您只需:
scrapy shell http://stackoverflow.com --set="ROBOTSTXT_OBEY=False"
Run Code Online (Sandbox Code Playgroud)