小编use*_*269的帖子

如何在抓取过程中动态生成start_urls?

我正在抓取一个网站,该网站可能包含很多start_urls,例如http://www.a.com/list_1_2_3.htm.

我想填充[list_\d + \ d +\d + .htm]之类的start_urls ,并在抓取过程中从[node_\d + .htm]等网址中提取项目.

我可以使用CrawlSpider来实现这个功能吗?如何在爬行中动态生成start_urls?

非常感谢!

web-crawler scrapy web-scraping

24
推荐指数
2
解决办法
2万
查看次数

标签 统计

scrapy ×1

web-crawler ×1

web-scraping ×1