有很多蜘蛛的 Scrapy

Scrapy with many spiders

我有一个项目需要从不同站点抓取数据。示例:我抓取了站点 1,然后我检查了一些条件(检查数据库等),如果这些条件为真,我需要 运行 下一个站点的另一个蜘蛛并传递在第一个站点抓取的数据。什么项目架构(蜘蛛和管道的组合)最适合这种情况?

在Scrapy中从一个Spider启动另一个Spider是不可能的

我曾经有过这样的要求,我所做的是我使用 ScrapyD,每当我需要启动另一个 Spider 时,我只是使用 requests.get('to_your_scrapyd:6800/schedule.json?project=project&spider=spider')scrapy.Request 发送请求并且新蜘蛛会 运行