如何在启动scrapy shell时禁用robots.txt？

Question

如何在启动scrapy shell时禁用robots.txt？

DAR*_*AAD 6 python robots.txt web-crawler scrapy scrapy-shell

我在几个网站上使用Scrapy shell没有问题,但是当机器人(robots.txt)不允许访问网站时我发现问题.如何通过Scrapy禁用机器人检测(忽略存在)？先感谢您. 我不是在谈论Scrapy创建的项目,而是Scrapy shell命令:scrapy shell 'www.example.com'

Answer 1

dan*_*000 6

在scrapy项目的settings.py文件中,查找ROBOTSTXT_OBEY并将其设置为False.

Answer 2

Gra*_*rus 5

如果从项目目录运行scrapy，scrapy shell将使用项目settings.py。如果您在项目外部运行，则scrapy将使用默认设置。但是，您可以通过--set标志覆盖和添加设置。
因此，要关闭ROBOTSTXT_OBEY设置，您只需：

scrapy shell http://stackoverflow.com --set="ROBOTSTXT_OBEY=False"

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，3 月前
查看次数：	5417 次
最近记录：	9 年，3 月前