当 scrapy 蜘蛛抓取时,网站可以获得哪些信息?

Which information a site can get when scraped by a scrapy spider?

我有一个只抓取网站的单文件蜘蛛。站点所有者可以看到哪些信息?

在这里,我没有使用自定义设置。 (这是默认设置)。

示例:

1.Spider姓名

2.IP

3.OS

站点所有者可以看到此信息。

  1. 蜘蛛名称。您可以将 更改为您想要的任何内容
  2. 您可以使用 VPN 或代理更改 IP 地址。
  3. 您正在使用的浏览器。要更改它,请转到设置并查找 USER_AGENT 删除评论,您可以轻松地继续 google 搜索其他用户代理。
  4. Cookie。 Scrapy 默认启用 cookie。转到设置并查找 COOKIES_ENABLED 删除评论,以便将其设置为 False。这将使抓取工作更加隐蔽。

  5. Concurrent_Requests。在设置中也是如此。这是您同时发出的请求数。最好把数字调低一些,这样对网站更友好。