如何让网络爬虫运行？

Question

我想在JS中编写自己的Web爬虫.我正在考虑使用node.js解决方案,例如https://www.npmjs.com/package/js-crawler

目标是每10分钟进行一次"抓取" - 所以每10分钟我希望我的抓取工具从网站获取数据.

我明白我可以编写一个无限循环,例如:

var keeRunning = true;
while (keepRunning) {
  // fetch data and process it every 10 minutes
}

如果我一直在我的电脑上,并且我在网站上,这可能会完全正常.

但是,如果我关闭计算机,我可以想象它将不再起作用.那么,即使计算机关闭,我应该考虑使用什么样的解决方案来保持脚本一直运行？

Answer 1

使用CronJobber来安排何时运行脚本（每 x 分钟或在设定的时间等）并将应用程序部署到某处，以便它将在线托管在永不关闭的服务器 上。有很多这样的解决方案，您可以免费托管节点服务器

C9

赫罗库

结实