scrapy-redis 重新爬取一台机器已经爬取的url

Question

我用scrapy-redis.
写了一个分布式爬虫起初，一切似乎都很好。

设置文件：

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'

然而，在抓取所有网址后，一个蜘蛛关闭了，而另一个没有 - 并开始重新抓取已经抓取的网址。

谁能帮帮我，解释一下为什么？

Answer 1

我已经解决问题了！使用"def close_spider(self, spider):"函数参数设置错误导致爬虫无法正常关闭。

scrapy-redis 重新爬取一台机器已经爬取的url

scrapy-redis re-crawl the url that one machine has already crawled

python

distributed

web-crawler

scrapy