如何将目标页面的结果合并到scrapy中的当前页面?

Jas*_*Jas 17 python scrapy web-scraping

需要scrapy如何从一个页面获取链接然后按照此链接,从链接页面获取更多信息,并与第一页的一些数据合并...

谢谢

Aco*_*orn 15

在第一页上部分填写您的项目,并将其放入您的请求的元数据中.当调用下一页的回调时,它可以获取部分填充的请求,将更多数据放入其中,然后返回它.


Rya*_*ite 7

有关传递meta数据和请求对象的更多信息,请参阅本文档的这一部分:

http://readthedocs.org/docs/scrapy/en/latest/topics/request-response.html#passing-additional-data-to-callback-functions

此问题还与以下内容有关:Scrapy:关注链接以获取更多项目数据?


Chi*_*sen 5

来自示例scrapy documntation

def parse_page1(self, response):
    item = MyItem()
    item['main_url'] = response.url
    request = scrapy.Request("http://www.example.com/some_page.html",
                         callback=self.parse_page2)
    request.meta['item'] = item
    return request

def parse_page2(self, response):
    item = response.meta['item']
    item['other_url'] = response.url
    return item
Run Code Online (Sandbox Code Playgroud)