Scrapy 上下文中的 scraper、crawler 和 spider 的区别

Question

正在尝试阅读Scrapy的代码。 scaper、crawler 和 spider 这些词令人困惑。例如

scrapy.core.scraper
scrapy.crawler
scrapy.spiders

谁能解释一下这些术语在Scrapy上下文中的含义和区别？提前致谢。

Answer 1

Crawler (scrapy.crawler) 是 Scrapy API 的主要入口点。它提供对所有 Scrapy 核心组件的访问，并用于将扩展功能挂接到 Scrapy。

Scraper (scrapy.core.scraper) 组件负责解析响应并从中提取信息。它来自引擎运行，它用于运行你的蜘蛛。

scrapy.spiders 是一个包含基本 Spider 实现（用于编写蜘蛛程序）的模块，以及一些可用的常见蜘蛛程序框（例如用于基于规则集的抓取的 CrawlSpider，用于基于站点地图的抓取的 SitemapSpider，或用于抓取 XML 提要的 XMLFeedSpider）。

官方文档页面上提供了更多信息：
http://doc.scrapy.org/en/latest/topics/spiders.html?highlight=crawlspider#spiders http://doc.scrapy.org/en/latest/topics/api.html?highlight=scrapy.crawler#module-scrapy.crawler

Scrapy 上下文中的 scraper、crawler 和 spider 的区别

Difference between scraper, crawler and spider in the context of Scrapy

web-crawler

scrapy

scrapy-spider