我正在抓取一个网站,该网站可能包含很多start_urls,例如http://www.a.com/list_1_2_3.htm.
我想填充[list_\d + \ d +\d + .htm]之类的start_urls ,并在抓取过程中从[node_\d + .htm]等网址中提取项目.
我可以使用CrawlSpider来实现这个功能吗?如何在爬行中动态生成start_urls?
非常感谢!
web-crawler scrapy web-scraping
scrapy ×1
web-crawler ×1
web-scraping ×1