如何保存Scrapy crawl命令输出

Question

我正在尝试保存我已经尝试过的scrapy crawl命令的输出 scrapy crawl someSpider -o some.json -t json >> some.text 但它没有用...有些机构告诉我如何将输出保存到文本文件....我的意思是日志和信息打印scrapy ...

Answer 1

您可以将以下行添加到您的settings.py:

LOG_STDOUT = True
LOG_FILE = '/tmp/scrapy_output.txt'

然后开始正常抓取:

scrapy crawl someSpider

检查[链接](http://doc.scrapy.org/en/latest/topics/logging.html#logging-settings)以获取更多日志记录设置。您甚至可以使用 `scrapycrawl MyCrawler -s LOG_FILE=/var/log/crawler_mycrawler.log` -s 触发器来动态更改爬网程序设置。 (2认同)

Answer 2

您还需要重定向stderr.你只重定向stdout.你可以像这样重定向它:

scrapy crawl someSpider -o some.json -t json 2> some.text

键是2,它"选择"stderr作为重定向源.

如果要将stderr和stdout重定向到一个文件,可以使用:

scrapy crawl someSpider -o some.json -t json &> some.text

Answer 3

对于所有scrapy命令，您可以添加--logfile NAME_OF_FILE到日志文件中，例如

scrapy crawl someSpider -o some.json --logfile some.text

还有两个其他有用的命令行选项用于日志记录：