使用 Amazon Web Services 自动调度 Scrapy Crawler

Mar*_*ind 5 python amazon-ec2 amazon-web-services scrapy scrapyd

我有一个使用 Python 的 Scrapy 的爬虫/蜘蛛,我想使用 Amazon Web Services 安排每日爬行。

我想做的是,每天,假设 01:00 UTC。我希望创建一个 ec2 实例并启动 Scrapy 蜘蛛并运行爬行,完成后我希望终止 ec2 实例。

我不希望 ec2 实例继续运行并增加额外的成本/费用,因为将来我将添加更多蜘蛛,这可能会导致每天 20 小时不执行任何操作的十几个被动实例。

我发现了一些关于将 Scrapy 与 ec2 结合使用的帖子:

但所有这些似乎都要求您每次想要安排爬网时都从本地计算机启动该脚本。这似乎不是自动完成的。我希望我的脚本一年 365 天运行,持续 10 年以上,而且我不想每天晚上睡觉前都运行它。

有人可以描述如何使用 Amazon Web Services 完成此操作吗?

Jit*_*hin 3

我认为使用crontabpython-scheduler以及 scrapyd 可以解决问题