小编use_269的帖子

如何在抓取过程中动态生成start_urls？

我正在抓取一个网站,该网站可能包含很多start_urls,例如http://www.a.com/list_1_2_3.htm.

我想填充[list_\d + \ d +\d + .htm]之类的start_urls ,并在抓取过程中从[node_\d + .htm]等网址中提取项目.

我可以使用CrawlSpider来实现这个功能吗？如何在爬行中动态生成start_urls？

非常感谢!

web-crawler scrapy web-scraping

24
推荐指数

2
解决办法

2万
查看次数

标签统计

web-crawler ×1

web-scraping ×1