使用 cron 或其他一些调度程序在同一个爬虫项目中自动爬行多个蜘蛛

Question

使用 cron 或其他一些调度程序在同一个爬虫项目中自动爬行多个蜘蛛

Sab*_*ena 4 python cron scrapy web-scraping

我在同一个项目中有多个蜘蛛文件，每个文件都用于不同的域并使用相同的管道和设置。

我的基本需求是通过像 cron 这样的调度程序（我使用的是 Windows 机器）来自动化scrapy项目。

scrapy 项目需要每天运行一次。结果管道将数据保存到Mysql。

任何人都可以提出适当的方法来满足我的要求。

Answer 1

Rah*_*hul 6

要运行多个蜘蛛，您可以尝试以下代码：

from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

process = CrawlerProcess(get_project_settings())

process.crawl('testspider1', domain='domain1.com')
process.crawl('testspider2', domain='domain2.com')
process.crawl('testspider3', domain='domain3.com')
process.start()

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，3 月前
查看次数：	1394 次
最近记录：	10 年，3 月前