小编Ber*_*lla的帖子

如何使用scrapy抓取多个域名

我有一个项目，我必须在其中抓取大量不同的网站。所有这些网站的爬行都可以使用相同的蜘蛛，因为我不需要从其正文页面中提取项目。我想到的方法是在蜘蛛文件中参数化要爬行的域，并调用 scrapy scrapy 命令传递域并启动 url 作为参数，这样我就可以避免为每个站点生成一个蜘蛛（站点列表将增加超过时间）。我的想法是将其部署到运行 scrapyd 的服务器上，所以我想到了几个问题：

这是我可以采取的最佳方法吗？
如果是这样，如果我多次调度同一蜘蛛并传递不同的参数，是否会出现并发问题？
如果这不是最好的方法，最好每个站点创建一个蜘蛛......我将不得不经常更新项目。项目更新会影响正在运行的蜘蛛吗？

scrapy scrapyd

Ber*_*lla

2014 07-05

5
推荐指数

1
解决办法

4092
查看次数

标签统计

scrapy ×1

scrapyd ×1

如何使用scrapy抓取多个域名

标签 统计

小编Ber_lla的帖子

标签统计