重定向请求的回调 Scrapy

Question

重定向请求的回调 Scrapy

a'-*_*a'- 3 redirect web-crawler scrapy url-redirection scrapy-spider

我正在尝试使用刮削框架进行刮削。一些请求被重定向，但 start_requests 中设置的回调函数不会为这些重定向的 url 请求调用，但对于非重定向的请求工作正常。

我在 start_requests 函数中有以下代码：

for user in users:
    yield scrapy.Request(url=userBaseUrl+str(user['userId']),cookies=cookies,headers=headers,dont_filter=True,callback=self.parse_p)

Run Code Online (Sandbox Code Playgroud)

但是这个 self.parse_p 只被非 302 请求调用。

Answer 1

nev*_*stn 5

我猜你会收到最后一页的回调（重定向之后）。重定向由RedirectMiddleware. 您可以禁用它，然后您必须手动执行所有重定向。如果您想选择性地禁用几种类型的请求的重定向，您可以这样做：

request =  scrapy.Request(url, meta={'dont_redirect': True} callback=self.manual_handle_of_redirects)

Run Code Online (Sandbox Code Playgroud)

不过，我不确定中间请求/响应是否非常有趣。这也是RedirectMiddleware相信的。因此，它会自动执行重定向并将中间 URL（唯一有趣的事情）保存在：

response.request.meta.get('redirect_urls')

Run Code Online (Sandbox Code Playgroud)

你有几个选择！

示例蜘蛛：

import scrapy

class DimSpider(scrapy.Spider):
    name = "dim"

    start_urls = (
        'http://example.com/',
    )

    def parse(self, response):
        yield scrapy.Request(url="http://example.com/redirect302.php", dont_filter=True, callback=self.parse_p)

    def parse_p(self, response):
       print response.request.meta.get('redirect_urls')
       print "done!"

Run Code Online (Sandbox Code Playgroud)

示例输出...

DEBUG: Crawled (200) <GET http://www.example.com/> (referer: None)
DEBUG: Redirecting (302) to <GET http://myredirect.com> from <GET http://example.com/redirect302.php>
DEBUG: Crawled (200) <GET http://myredirect.com/> (referer: http://example.com/redirect302.com/)
['http://example.com/redirect302.php']
done!

Run Code Online (Sandbox Code Playgroud)

如果你真的想抓取 302 页，你必须明确允许它。例如在这里，我允许302并设置dont_redirect为True：

handle_httpstatus_list = [302]
def parse(self, response):
    r = scrapy.Request(url="http://example.com/redirect302.php", dont_filter=True, callback=self.parse_p)
    r.meta['dont_redirect'] = True
    yield r

Run Code Online (Sandbox Code Playgroud)

最终结果是：

DEBUG: Crawled (200) <GET http://www.example.com/> (referer: None)
DEBUG: Crawled (302) <GET http://example.com/redirect302.com/> (referer: http://www.example.com/)
None
done!

Run Code Online (Sandbox Code Playgroud)

这个蜘蛛应该手动跟踪 302 网址：

import scrapy

class DimSpider(scrapy.Spider):
    name = "dim"

    handle_httpstatus_list = [302]

    def start_requests(self):
        yield scrapy.Request("http://page_with_or_without_redirect.html",
                             callback=self.parse200_or_302, meta={'dont_redirect':True})

    def parse200_or_302(self, response):
        print "I'm on: %s with status %d" % (response.url, response.status)
        if 'location' in response.headers:
            print "redirecting"
            return [scrapy.Request(response.headers['Location'],
                                  callback=self.parse200_or_302, meta={'dont_redirect':True})]

Run Code Online (Sandbox Code Playgroud)

当心。不要省略设置，handle_httpstatus_list = [302]否则你会得到“HTTP 状态代码未被处理或不允许”。

归档时间：	9 年，10 月前
查看次数：	7207 次
最近记录：	9 年，10 月前