如何留住网络爬虫运行?

How to keep a web crawler running?

我想用JS写自己的网络爬虫。我正在考虑使用 node.js 解决方案,例如 https://www.npmjs.com/package/js-crawler

objective 每 10 分钟有一个 "crawl" - 所以我希望我的爬虫每 10 分钟从网站获取数据。

我知道我可以写一个无限循环,例如:

var keeRunning = true;
while (keepRunning) {
  // fetch data and process it every 10 minutes
}

如果我的电脑一直开着并且我在网站上,这可能会很好地工作。

但是,如果我关闭计算机,我可以想象它不会再工作了。那么我应该考虑什么样的解决方案才能一直保留一个脚本运行,即使在计算机关闭时也是如此?

使用 CronJobber 安排何时 运行 您的脚本(每 x 分钟,或在设定的时间等)并将您的应用程序部署到某处,以便将其在线托管在服务器 永不关闭。有很多这样的解决方案,您可以在其中免费托管您的节点服务器