如何从网站的多个不相关部分抓取数据(使用 Scrapy)
How to scrape data from multiple unrelated sections of a website (using Scrapy)
我做了一个可以抓取亚马逊的Scrapy网络爬虫。它可以通过使用关键字列表搜索项目来进行抓取,并从结果页面中抓取数据。
但是,我想从亚马逊上抓取其大部分产品数据。我没有用于查询项目的首选关键字列表。相反,我想均匀地抓取网站并收集 X 件商品,这些商品代表亚马逊上列出的所有产品。
有谁知道如何以这种方式抓取网站?谢谢。
我将我的评论作为答案,以便其他寻找类似解决方案的人可以更轻松地找到它。
实现这一目标的一种方法是浏览每个类别(家具、服装、技术、汽车等)并在那里收集一定数量的物品。 Amazon 有 side/top 个带有指向不同类别的导航链接的栏,因此您可以让它 运行 通过那里。
流程如下:
- 从初始 Amazon.com 解析开始关注类别 url
- 为回调使用不同的解析函数,该函数将抓取该类别中的许多项目
- 确保数据正在写入文件(可能会有很多数据)
但是,这样的做法对于每个品类在整个亚马逊产品中所占的比例并不具有代表性。尝试为每个类别寻找“X 个结果”标签以弥补这一点。祝你的项目好运!
我做了一个可以抓取亚马逊的Scrapy网络爬虫。它可以通过使用关键字列表搜索项目来进行抓取,并从结果页面中抓取数据。
但是,我想从亚马逊上抓取其大部分产品数据。我没有用于查询项目的首选关键字列表。相反,我想均匀地抓取网站并收集 X 件商品,这些商品代表亚马逊上列出的所有产品。
有谁知道如何以这种方式抓取网站?谢谢。
我将我的评论作为答案,以便其他寻找类似解决方案的人可以更轻松地找到它。
实现这一目标的一种方法是浏览每个类别(家具、服装、技术、汽车等)并在那里收集一定数量的物品。 Amazon 有 side/top 个带有指向不同类别的导航链接的栏,因此您可以让它 运行 通过那里。
流程如下:
- 从初始 Amazon.com 解析开始关注类别 url
- 为回调使用不同的解析函数,该函数将抓取该类别中的许多项目
- 确保数据正在写入文件(可能会有很多数据)
但是,这样的做法对于每个品类在整个亚马逊产品中所占的比例并不具有代表性。尝试为每个类别寻找“X 个结果”标签以弥补这一点。祝你的项目好运!