Sab*_*ena 4 python cron scrapy web-scraping
我在同一个项目中有多个蜘蛛文件,每个文件都用于不同的域并使用相同的管道和设置。
我的基本需求是通过像 cron 这样的调度程序(我使用的是 Windows 机器)来自动化scrapy项目。
scrapy 项目需要每天运行一次。结果管道将数据保存到Mysql。
任何人都可以提出适当的方法来满足我的要求。
要运行多个蜘蛛,您可以尝试以下代码:
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
process = CrawlerProcess(get_project_settings())
process.crawl('testspider1', domain='domain1.com')
process.crawl('testspider2', domain='domain2.com')
process.crawl('testspider3', domain='domain3.com')
process.start()
Run Code Online (Sandbox Code Playgroud)