scrapy日志问题

Question

scrapy日志问题

akh*_*hab 3 python scrapy python-2.7 scrapyd

我在一个项目中有多个蜘蛛,问题是我现在在SETTINGS中定义LOG_FILE

LOG_FILE = "scrapy_%s.log" % datetime.now()

Run Code Online (Sandbox Code Playgroud)

我想要的是什么 scrapy_SPIDERNAME_DATETIME

但我无法在log_file名称中提供spidername ..

我发现

scrapy.log.start(logfile=None, loglevel=None, logstdout=None)

Run Code Online (Sandbox Code Playgroud)

并在每个spider init方法中调用它,但它不起作用..

任何帮助,将不胜感激

Answer 1

Ste*_*oth 7

由于日志观察者此时已经启动,所以蜘蛛__init__()不能足够自己调用log.start(); 因此,您需要重新初始化日志状态以欺骗Scrapy(重新)启动它.

在你的蜘蛛类文件中:

from datetime import datetime
from scrapy import log
from scrapy.spider import BaseSpider

class ExampleSpider(BaseSpider):
    name = "example"
    allowed_domains = ["example.com"]
    start_urls = ["http://www.example.com/"]

    def __init__(self, name=None, **kwargs):
        LOG_FILE = "scrapy_%s_%s.log" % (self.name, datetime.now())
        # remove the current log
        # log.log.removeObserver(log.log.theLogPublisher.observers[0])
        # re-create the default Twisted observer which Scrapy checks
        log.log.defaultObserver = log.log.DefaultObserver()
        # start the default observer so it can be stopped
        log.log.defaultObserver.start()
        # trick Scrapy into thinking logging has not started
        log.started = False
        # start the new log file observer
        log.start(LOG_FILE)
        # continue with the normal spider init
        super(ExampleSpider, self).__init__(name, **kwargs)

    def parse(self, response):
        ...

Run Code Online (Sandbox Code Playgroud)

输出文件可能如下所示:

scrapy_example_2012-08-25 12:34:48.823896.log

归档时间：	13 年，6 月前
查看次数：	3081 次
最近记录：	12 年，9 月前