为什么 <from> 标签在试图从中抓取时消失了?废料
Why <from> tag disappear while trying to scrape from it? Scrapy
我试图从亚马逊抓取一些数据,我需要根据评论数量对书籍进行排序 page:www.amazon.com/s/ref=lp_283155_nr_n_0?fst=as %3Aoff&rh=n%3A283155%2Cn%3A!1000%2Cn%3A1&bbn=1000&ie=UTF8&qid=1457964444&rnid=1000
如果我用 scrapy 框架解析这个页面,不知何故表单标签消失了,所以我不能抓取它,这是为什么??
我的浏览器是这样看的:
[1]: http://i.stack.imgur.com/sSrsK.jpg
scrapy 框架是这样看的:
[2]: http://i.imgur.com/TEDILP8.jpg?1
这是我用scrapy的open_in_browser()方法打开页面时看到的
这很奇怪,我不知道哪里出了问题
感谢您的帮助
我尝试重现您的错误,发现当我打开 give url 时,scrapy shell 重定向到另一个 link。当我查看响应时,它是一个与问题中提到的完全不同的页面,没有 form
标记。
这是 scrapy 打印的 Debug
代码:
2016-03-15 13:35:35 [scrapy] DEBUG: Redirecting (301) to <GET http://www.amazon.com/s?ie=UTF8&bbn=1000&page=1&rh=n%3A283155> from <GET http://www.amazon.com/s/ref=lp_283155_nr_n_0?fst=as%3Aoff&rh=n%3A283155%2Cn%3A2Cn%3A1&bbn=1000&ie=UTF8&qid=1457964444&rnid=1000>
解决方法是尝试使用 user-agent
打开 url。像这样:
scrapy shell -s USER_AGENT='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.36 Safari/535.7' "http://www.amazon.com/s/ref=lp_283155_nr_n_0?fst=as%3Aoff&rh=n%3A283155%2Cn%3A2Cn%3A1&bbn=1000&ie=UTF8&qid=1457964444&rnid=1000"
我试图从亚马逊抓取一些数据,我需要根据评论数量对书籍进行排序 page:www.amazon.com/s/ref=lp_283155_nr_n_0?fst=as %3Aoff&rh=n%3A283155%2Cn%3A!1000%2Cn%3A1&bbn=1000&ie=UTF8&qid=1457964444&rnid=1000 如果我用 scrapy 框架解析这个页面,不知何故表单标签消失了,所以我不能抓取它,这是为什么??
我的浏览器是这样看的: [1]: http://i.stack.imgur.com/sSrsK.jpg
scrapy 框架是这样看的: [2]: http://i.imgur.com/TEDILP8.jpg?1
这是我用scrapy的open_in_browser()方法打开页面时看到的
这很奇怪,我不知道哪里出了问题 感谢您的帮助
我尝试重现您的错误,发现当我打开 give url 时,scrapy shell 重定向到另一个 link。当我查看响应时,它是一个与问题中提到的完全不同的页面,没有 form
标记。
这是 scrapy 打印的 Debug
代码:
2016-03-15 13:35:35 [scrapy] DEBUG: Redirecting (301) to <GET http://www.amazon.com/s?ie=UTF8&bbn=1000&page=1&rh=n%3A283155> from <GET http://www.amazon.com/s/ref=lp_283155_nr_n_0?fst=as%3Aoff&rh=n%3A283155%2Cn%3A2Cn%3A1&bbn=1000&ie=UTF8&qid=1457964444&rnid=1000>
解决方法是尝试使用 user-agent
打开 url。像这样:
scrapy shell -s USER_AGENT='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.36 Safari/535.7' "http://www.amazon.com/s/ref=lp_283155_nr_n_0?fst=as%3Aoff&rh=n%3A283155%2Cn%3A2Cn%3A1&bbn=1000&ie=UTF8&qid=1457964444&rnid=1000"