Scrapy returns 比预期更多的结果

Question

这是问题的延续：

我有一个 Scrapy 蜘蛛，它从 JSON 响应中提取值。它运行良好，提取了正确的值，但不知何故它进入了一个循环并且 returns 结果比预期的多（重复结果）。

例如，test.txt 文件中提供的 17 个值是 returns 289 结果，这意味着 17 times more 超出预期。

蜘蛛内容如下：

import scrapy
import json
from whois.items import WhoisItem

class whoislistSpider(scrapy.Spider):
    name = "whois_list"
    start_urls = []
    f = open('test.txt', 'r')
    global lines
    lines = f.read().splitlines()
    f.close()
    def __init__(self):
        for line in lines:
            self.start_urls.append('http://www.example.com/api/domain/check/%s/com' % line)

    def parse(self, response):
        for line in lines:
            jsonresponse = json.loads(response.body_as_unicode())
            item = WhoisItem()
            domain_name = list(jsonresponse['domains'].keys())[0]
            item["avail"] = jsonresponse["domains"][domain_name]["avail"]
            item["domain"] = domain_name
            yield item

items.py以下内容

import scrapy

class WhoisItem(scrapy.Item):
    avail = scrapy.Field()
    domain = scrapy.Field()

pipelines.py下方

class WhoisPipeline(object):
    def process_item(self, item, spider):
        return item

提前感谢您的所有回复。

Answer 1

parse函数应该是这样的：

def parse(self, response):
    jsonresponse = json.loads(response.body_as_unicode())
    item = WhoisItem()
    domain_name = list(jsonresponse['domains'].keys())[0]
    item["avail"] = jsonresponse["domains"][domain_name]["avail"]
    item["domain"] = domain_name
    yield item

请注意，我删除了 for 循环。

发生了什么：对于每一个响应，您都会循环并解析它 17 次。（因此产生17*17条记录）

Scrapy returns 比预期更多的结果

Scrapy returns more results than expected

python

json

web-crawler

scrapy

web-scraping