Scrapy:使用start_requests()的正确方法是什么?

Cry*_*pto 8 python scrapy

这就是我的蜘蛛的设置方式

class CustomSpider(CrawlSpider):
    name = 'custombot'
    allowed_domains = ['www.domain.com']
    start_urls = ['http://www.domain.com/some-url']
    rules = ( 
              Rule(SgmlLinkExtractor(allow=r'.*?something/'), callback='do_stuff', follow=True),
            )

    def start_requests(self):
        return Request('http://www.domain.com/some-other-url', callback=self.do_something_else)
Run Code Online (Sandbox Code Playgroud)

它转到/ some-other-url但不是/ some-url.这有什么不对?start_urls中指定的url是需要通过规则过滤器提取和发送的链接的url,其中start_requests中的url直接发送到项目解析器,因此不需要通过规则过滤器.

Tal*_*lin 10

文档中可以start_requestsstart_requests看出,覆盖意味着start_urls忽略了定义的URL .

当没有指定特定URL时打开蜘蛛进行抓取时,这是Scrapy调用的方法.如果指定了特定URL,则使用make_requests_from_url()来创建请求.
[...]
如果要更改用于开始抓取域的请求,这是要覆盖的方法.

如果你想从/ some-url中删除,那么删除start_requests.如果你想从两者中删除,那么将/ some-url添加到start_urls列表中.

  • 可能有点晚了,但如果您仍然需要帮助,请编辑问题以发布所有蜘蛛代码和有效的 URL。:) (2认同)