如何让网络爬虫运行?

Joh*_*ews 5 javascript web-crawler node.js

我想在JS中编写自己的Web爬虫.我正在考虑使用node.js解决方案,例如https://www.npmjs.com/package/js-crawler

目标是每10分钟进行一次"抓取" - 所以每10分钟我希望我的抓取工具从网站获取数据.

我明白我可以编写一个无限循环,例如:

var keeRunning = true;
while (keepRunning) {
  // fetch data and process it every 10 minutes
}
Run Code Online (Sandbox Code Playgroud)

如果我一直在我的电脑上,并且我在网站上,这可能会完全正常.

但是,如果我关闭计算机,我可以想象它将不再起作用.那么,即使计算机关闭,我应该考虑使用什么样的解决方案来保持脚本一直运行?

Dan*_*van 1

使用CronJobber来安排何时运行脚本(每 x 分钟或在设定的时间等)并将应用程序部署到某处,以便它将在线托管在永不关闭的服务器 上。有很多这样的解决方案,您可以免费托管节点服务器