我正在使用Scrapy来抓一个网站.我想要抓取的项目页面如下:http://www.somepage.com/itempage/&page=x.哪里x是任意数字1至100.因此,我有一个SgmlLinkExractor规则,其中为任何类似于此的页面指定了回调函数.
该网站没有包含所有项目的列表页面,所以我想以某种方式很好地擦除这些网址(从)1到100.这家伙在这里似乎有同样的问题,但无法弄清楚.
有没有人有办法解决吗?
您可以列出Spider类' start_urls属性中的所有已知网址:
class SomepageSpider(BaseSpider):
name = 'somepage.com'
allowed_domains = ['somepage.com']
start_urls = ['http://www.somepage.com/itempage/&page=%s' % page for page in xrange(1, 101)]
def parse(self, response):
# ...
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
545 次 |
| 最近记录: |