使用 cron 或其他一些调度程序在同一个爬虫项目中自动爬行多个蜘蛛

Sab*_*ena 4 python cron scrapy web-scraping

我在同一个项目中有多个蜘蛛文件,每个文件都用于不同的域并使用相同的管道和设置。

我的基本需求是通过像 cron 这样的调度程序(我使用的是 Windows 机器)来自动化scrapy项目。

scrapy 项目需要每天运行一次。结果管道将数据保存到Mysql。

任何人都可以提出适当的方法来满足我的要求。

Rah*_*hul 6

要运行多个蜘蛛,您可以尝试以下代码:

from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

process = CrawlerProcess(get_project_settings())

process.crawl('testspider1', domain='domain1.com')
process.crawl('testspider2', domain='domain2.com')
process.crawl('testspider3', domain='domain3.com')
process.start()
Run Code Online (Sandbox Code Playgroud)