我有一个项目,我必须在其中抓取大量不同的网站。所有这些网站的爬行都可以使用相同的蜘蛛,因为我不需要从其正文页面中提取项目。我想到的方法是在蜘蛛文件中参数化要爬行的域,并调用 scrapy scrapy 命令传递域并启动 url 作为参数,这样我就可以避免为每个站点生成一个蜘蛛(站点列表将增加超过时间)。我的想法是将其部署到运行 scrapyd 的服务器上,所以我想到了几个问题:
scrapy scrapyd
scrapy ×1
scrapyd ×1