如何存储Scrapy抓取的URL？

Question

如何存储Scrapy抓取的URL？

我有一个网络爬虫，可以在网页上爬取新闻故事。

我知道如何使用 XpathSelector 从页面中的元素中抓取某些信息。

但是我似乎无法弄清楚如何存储刚刚抓取的页面的 URL。

class spidey(CrawlSpider):
    name = 'spidey'
    start_urls = ['http://nytimes.com'] # urls from which the spider will start crawling
    rules = [Rule(SgmlLinkExtractor(allow=[r'page/\d+']), follow=True), 
        # r'page/\d+' : regular expression for http://nytimes.com/page/X URLs
        Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\w+']), callback='parse_articles')]
        # r'\d{4}/\d{2}/\w+' : regular expression for http://nytimes.com/YYYY/MM/title URLs

Run Code Online (Sandbox Code Playgroud)

我想存储通过这些规则的每个链接。

我需要向 parse_articles 添加什么才能将链接存储在我的项目中？

def parse_articles(self, response):
    item = SpideyItem()
    item['link'] = ???
    return item

Run Code Online (Sandbox Code Playgroud)

Answer 1

ale*_*cxe 6

response.url 是您要查找的内容。

请参阅有关响应对象的文档并查看此简单示例。

归档时间：	12 年，11 月前
查看次数：	1831 次
最近记录：	12 年，11 月前