如何将抓取的项目导出为 Scrapy 中的字典列表
How to export scraped items as a list of dictionaries in Scrapy
我制作了一个 Scrapy 代码,其中有 4 个爬虫从 4 个不同的电子商务网站抓取。对于每个爬虫,我想从每个网站输出 5 个价格最低的产品,并将它们导出到一个 CSV 文件中。
现在,我的主要代码如下所示:
process = CrawlerProcess()
process.crawl(Crawler1)
process.crawl(Crawler2)
process.crawl(Crawler3)
process.crawl(Crawler4)
process.start()
我希望每个爬虫都 return 一个字典列表,这样我就可以使用 for 循环遍历它并比较价格。
我需要使用 Scrapy Pipeline 来做这个吗?我怎样才能使 Scrapy return 成为一个已抓取项目的列表(在字典中)而不是仅仅将它们导出为文件?
这是一个来自另一个 post 的蜘蛛的示例,我将蜘蛛名称传递给了函数,但您可以根据需要对其进行调整:
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
from scrapy.signalmanager import dispatcher
from scrapy import signals
def spider_output(spider):
output = []
def get_output(item):
output.append(item)
dispatcher.connect(get_output, signal=signals.item_scraped)
settings = get_project_settings()
settings['USER_AGENT'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
process = CrawlerProcess(settings)
process.crawl(spider)
process.start()
return output
if __name__ == "__main__":
spider = 'vdsc'
print(spider_output(spider))
我制作了一个 Scrapy 代码,其中有 4 个爬虫从 4 个不同的电子商务网站抓取。对于每个爬虫,我想从每个网站输出 5 个价格最低的产品,并将它们导出到一个 CSV 文件中。
现在,我的主要代码如下所示:
process = CrawlerProcess()
process.crawl(Crawler1)
process.crawl(Crawler2)
process.crawl(Crawler3)
process.crawl(Crawler4)
process.start()
我希望每个爬虫都 return 一个字典列表,这样我就可以使用 for 循环遍历它并比较价格。
我需要使用 Scrapy Pipeline 来做这个吗?我怎样才能使 Scrapy return 成为一个已抓取项目的列表(在字典中)而不是仅仅将它们导出为文件?
这是一个来自另一个 post 的蜘蛛的示例,我将蜘蛛名称传递给了函数,但您可以根据需要对其进行调整:
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
from scrapy.signalmanager import dispatcher
from scrapy import signals
def spider_output(spider):
output = []
def get_output(item):
output.append(item)
dispatcher.connect(get_output, signal=signals.item_scraped)
settings = get_project_settings()
settings['USER_AGENT'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
process = CrawlerProcess(settings)
process.crawl(spider)
process.start()
return output
if __name__ == "__main__":
spider = 'vdsc'
print(spider_output(spider))