相关疑难解决方法(0)

使用Scrapy从网站查找和下载pdf文件

我的任务是使用Scrapy从网站上提取pdf文件.我不是Python的新手,但Scrapy对我来说是一个新手.我一直在试验控制台和一些基本的蜘蛛.我发现并修改了这段代码:

import urlparse
import scrapy

from scrapy.http import Request

class pwc_tax(scrapy.Spider):
    name = "pwc_tax"

    allowed_domains = ["www.pwc.com"]
    start_urls = ["http://www.pwc.com/us/en/tax-services/publications/research-and-insights.html"]

    def parse(self, response):
        base_url = "http://www.pwc.com/us/en/tax-services/publications/research-and-insights.html"
        for a in response.xpath('//a[@href]/@href'):
            link = a.extract()
            if link.endswith('.pdf'):
                link = urlparse.urljoin(base_url, link)
                yield Request(link, callback=self.save_pdf)

    def save_pdf(self, response):
        path = response.url.split('/')[-1]
        with open(path, 'wb') as f:
            f.write(response.body)

Run Code Online (Sandbox Code Playgroud)

我在命令行运行此代码