Python 爬虫无法抓取所需的元素

Question

我试图从特定页面中抓取一些元素：在本例中为“http://www.mega.pk/mobiles/”，但我面临的问题是我无法抓取除了产品名称和其他任何内容 returns null。请帮助我找到正确的方向，如果您能解释问题出在哪里，我将不胜感激。

注意： 好吧，我已经改变了之前抓取数据的方式，现在使用 scrapy。现在我可以废弃任何我想要的元素，但标签也随之而来。我怎样才能删除标签？这是新代码：

sel = Selector(response)

item['Heading'] = sel.xpath('//*[@id="main1"]/div[1]/div[1]/div/div[2]/div[2]/div/div[1]/h2/span').extract()
item['Content'] = sel.xpath('//*[@id="main1"]/div[1]/div[1]/div/div[2]/div[2]/div/p').extract()

Answer 1

只需在 xpath 末尾添加 /text()。

sel = Selector(response)

item['Heading'] = sel.xpath('//*[@id="main1"]/div[1]/div[1]/div/div[2]/div[2]/div/div[1]/h2/span/text()').extract()
item['Content'] = sel.xpath('//*[@id="main1"]/div[1]/div[1]/div/div[2]/div[2]/div/p/text()').extract()

Python 爬虫无法抓取所需的元素

Python Crawler is unable to scrape the required element

python

scrapy

python-2.7