如何有效地 运行 python 网络爬虫

How to run python web-crawler effectively

我有一个 python 网络爬虫,可以获取信息并将其放入 SQL。现在我还有 php 页面,它从 SQL 读取此信息并表示它。问题是:为了让爬虫程序工作,我的电脑必须保持 24/7 工作。我有简单的家用电脑 - 所以这是个问题。 运行 网络爬虫有不同的方法吗?还是我必须 运行 在我的电脑上安装它?

如果您正在监视不断更新的页面,那么是的,您将需要 运行 在 某些 计算机上 运行 24/7。您可以使用 cron 作业或连续循环(带有一些监控)。如果您不想 运行 在您的家用计算机上使用它,我建议您获取一个免费的 AWS 帐户。您可以获得一个 EC2 微型实例,它将允许您 运行 您的 python 脚本和一个 S3 数据库实例,它将允许您存储信息。

这是一个link to AWS