在scrapy下载图像

Question

在scrapy下载图像

May*_*ain 7 image download scrapy imagedownload

我试图通过scrapy下载图像.这是我的不同文件:

items.py

class DmozItem(Item):
        title = Field()
        image_urls = Field()
        images = Field()

Run Code Online (Sandbox Code Playgroud)

settings.py

BOT_NAME = 'tutorial'

SPIDER_MODULES = ['tutorial.spiders']
NEWSPIDER_MODULE = 'tutorial.spiders'
ITEM_PIPELINES = ['scrapy.contrib.pipeline.images.ImagesPipeline']
IMAGES= '/home/mayank/Desktop/sc/tutorial/tutorial'

Run Code Online (Sandbox Code Playgroud)

蜘蛛

class DmozSpider(BaseSpider):
    name = "wikipedia"
    allowed_domains = ["wikipedia.org"]
    start_urls = [
        "http://en.wikipedia.org/wiki/Pune"
    ]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        items = []
        images=hxs.select('//a[@class="image"]')
        for image in images:
                item = DmozItem()
                link=image.select('@href').extract()[0]
                link = 'http://en.wikipedia.com'+link
                item['image_urls']=link
                items.append(item)

Run Code Online (Sandbox Code Playgroud)

尽管所有这些设置,我的管道没有被激活.请帮助.我是这个框架的新手.

Answer 1

imw*_*nxu 10

首先,settings.py:IMAGES - > IMAGES_STORE

二,spider:你应该返回item,这样ImagesPipeline可以下载这些图片.

item = DmozItem()
image_urls = hxs.select('//img/@src').extract()
item['image_urls'] = ["http:" + x for x in image_urls]
return item

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，10 月前
查看次数：	8290 次
最近记录：	11 年，4 月前