使用scrapy中的for循环从多个URL中抓取信息

Question

使用scrapy中的for循环从多个URL中抓取信息

use*_*857 0 python amazon web-crawler scrapy scrapy-spider

我想从多个网址抓取信息.我使用以下代码但它不起作用.愿有人请我指出我出错的地方吗？

import scrapy

class spider1(scrapy.Spider):
    name = "spider1"
    domain = "http://www.amazon.com/dp/"
    ASIN = ['B01LA6171I', 'B00OUKHTLO','B00B7LUVZK']

    def start_request(self):
        for i in ASIN:
            yield scrapy.Request(url=domain+i,callback = self.parse)

    def parse(self, response):
       title =response.css("span#productTitle::text").extract_first().strip()
       ASIN_ext = response.xpath("//input[@name='ASIN']/@value").extract_first()
       data = {"ASIN":ASIN_ext,"title":title,}
       yield data

Run Code Online (Sandbox Code Playgroud)

Answer 1

小智 6

你只需要在第一个函数中添加's'

def start_requests(self):

Run Code Online (Sandbox Code Playgroud)

微妙的区别,但Scrapy寻找特定的功能,所以它必须完美匹配.

归档时间：	8 年，6 月前
查看次数：	1642 次
最近记录：	8 年，6 月前