可以自动将找到的 URL 添加到 MySQL 数据库的网络爬虫?

Web crawler that can automatically add found URLS to a MySQL database?

标题几乎说明了一切,我正在寻找一个可以自动将其发现添加到数据库中的 web-crawler,这样的东西是否存在,还是我最好自己制作?

您可以付费购买大量服务来执行此操作:https://www.quora.com/What-are-the-best-web-crawling-services但是,如果您正在寻找免费服务,最好自己制作。

如果您选择 DIY 路线,请查看 Firebase 数据库:https://firebase.google.com/docs/database/ Firebase 使创建数据库、设置规则以及从简单的 Web 应用程序执行 CRUD 操作变得非常容易,而无需构建自定义后端。这听起来像是您描述的小型项目的完美候选者。

此外,如果您不熟悉网络爬虫,请查看 Scrapy。在我使用过的所有抓取库中,这个库是最容易用于简单项目的库之一。

StormCrawler has a SQL module which allows to store the information about the URLs discovered in table. The Cloudsearch tutorial 有点过时,但解释了如何将 StormCrawler 与 MySQL 一起使用。