scrapy-redis 重新爬取一台机器已经爬取的url

scrapy-redis re-crawl the url that one machine has already crawled

我用scrapy-redis.
写了一个分布式爬虫 起初,一切似乎都很好。

设置文件:

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'

然而,在抓取所有网址后,一个蜘蛛关闭了,而另一个没有 - 并开始重新抓取已经抓取的网址。

谁能帮帮我,解释一下为什么?

我已经解决问题了!使用"def close_spider(self, spider):"函数参数设置错误导致爬虫无法正常关闭。