Python 爬虫无法抓取所需的元素
Python Crawler is unable to scrape the required element
我试图从特定页面中抓取一些元素:在本例中为“http://www.mega.pk/mobiles/”,但我面临的问题是我无法抓取除了产品名称和其他任何内容 returns null。请帮助我找到正确的方向,如果您能解释问题出在哪里,我将不胜感激。
注意: 好吧,我已经改变了之前抓取数据的方式,现在使用 scrapy。现在我可以废弃任何我想要的元素,但标签也随之而来。我怎样才能删除标签?
这是新代码:
sel = Selector(response)
item['Heading'] = sel.xpath('//*[@id="main1"]/div[1]/div[1]/div/div[2]/div[2]/div/div[1]/h2/span').extract()
item['Content'] = sel.xpath('//*[@id="main1"]/div[1]/div[1]/div/div[2]/div[2]/div/p').extract()
只需在 xpath 末尾添加 /text()
。
sel = Selector(response)
item['Heading'] = sel.xpath('//*[@id="main1"]/div[1]/div[1]/div/div[2]/div[2]/div/div[1]/h2/span/text()').extract()
item['Content'] = sel.xpath('//*[@id="main1"]/div[1]/div[1]/div/div[2]/div[2]/div/p/text()').extract()
我试图从特定页面中抓取一些元素:在本例中为“http://www.mega.pk/mobiles/”,但我面临的问题是我无法抓取除了产品名称和其他任何内容 returns null。请帮助我找到正确的方向,如果您能解释问题出在哪里,我将不胜感激。
注意: 好吧,我已经改变了之前抓取数据的方式,现在使用 scrapy。现在我可以废弃任何我想要的元素,但标签也随之而来。我怎样才能删除标签? 这是新代码:
sel = Selector(response)
item['Heading'] = sel.xpath('//*[@id="main1"]/div[1]/div[1]/div/div[2]/div[2]/div/div[1]/h2/span').extract()
item['Content'] = sel.xpath('//*[@id="main1"]/div[1]/div[1]/div/div[2]/div[2]/div/p').extract()
只需在 xpath 末尾添加 /text()
。
sel = Selector(response)
item['Heading'] = sel.xpath('//*[@id="main1"]/div[1]/div[1]/div/div[2]/div[2]/div/div[1]/h2/span/text()').extract()
item['Content'] = sel.xpath('//*[@id="main1"]/div[1]/div[1]/div/div[2]/div[2]/div/p/text()').extract()