Scrapy - 没有列表页面,但我知道每个项目页面的URL

Question

Scrapy - 没有列表页面,但我知道每个项目页面的URL

我正在使用Scrapy来抓一个网站.我想要抓取的项目页面如下:http://www.somepage.com/itempage/&page=x.哪里x是任意数字1至100.因此,我有一个SgmlLinkExractor规则,其中为任何类似于此的页面指定了回调函数.

该网站没有包含所有项目的列表页面,所以我想以某种方式很好地擦除这些网址(从)1到100.这家伙在这里似乎有同样的问题,但无法弄清楚.

有没有人有办法解决吗？

Answer 1

Jon*_*nan 6

您可以列出Spider类' start_urls属性中的所有已知网址:

class SomepageSpider(BaseSpider):
    name = 'somepage.com'
    allowed_domains = ['somepage.com']
    start_urls = ['http://www.somepage.com/itempage/&page=%s' % page for page in xrange(1, 101)]

    def parse(self, response):
        # ...

Run Code Online (Sandbox Code Playgroud)

归档时间：	14 年，6 月前
查看次数：	545 次
最近记录：	13 年，11 月前