我的网站被抓取了吗?
Is my website being crawled?
我在 DigitalOcean & nginx & ubuntu 服务器上托管了一个 mean-stack 网站。
在网站中,有一个网页有一个按钮可以让用户给我发消息:
<button type="submit" class="btn btn-lg btn-theme" ng-click="mySubmit()">Send Message</button>
在控制器中:
$scope.mySubmit = function () {
return $http.post('/httpOnly/request/addRequest', { "name": $scope.name, "mail": $scope.mail, "message": $scope.message })
}
然后,在后端,它使用 https://github.com/sendgrid/sendgrid-nodejs 向我发送电子邮件。
以前,一切都很好。然而,在 1 周内,我每天连续收到 7 封邮件,其中包含 undefined
个值。 7封邮件每天几乎同一时间到达
有谁知道发生了什么事吗?我的网站被抓取了吗?有办法验证吗?
答案几乎是肯定的。您应该能够通过检查您的 nGinx 日志并查找标准机器人用户代理字段来验证这一点。
被好的机器人程序抓取(可能是理想的,以便出现在搜索引擎中)和被坏的机器人程序 post 发送垃圾邮件是有区别的。这些通常只是试图 post 例如带有垃圾链接等的博客评论部分
要管理哪些商品机器人会抓取您,您应该使用 robots.txt。
另一方面,不良机器人不会尊重 robots.txt,甚至可能会欺骗他们的用户代理,因此您不能使用它来阻止他们。
验证码,或 recaptcha challenge would work. Alternatively consider using a Cloudflare 帐户。他们在 Internet 和您的站点之间实施了一个可配置的 Web 应用程序防火墙,并自动阻止了很多此类 activity。
我在 DigitalOcean & nginx & ubuntu 服务器上托管了一个 mean-stack 网站。
在网站中,有一个网页有一个按钮可以让用户给我发消息:
<button type="submit" class="btn btn-lg btn-theme" ng-click="mySubmit()">Send Message</button>
在控制器中:
$scope.mySubmit = function () {
return $http.post('/httpOnly/request/addRequest', { "name": $scope.name, "mail": $scope.mail, "message": $scope.message })
}
然后,在后端,它使用 https://github.com/sendgrid/sendgrid-nodejs 向我发送电子邮件。
以前,一切都很好。然而,在 1 周内,我每天连续收到 7 封邮件,其中包含 undefined
个值。 7封邮件每天几乎同一时间到达
有谁知道发生了什么事吗?我的网站被抓取了吗?有办法验证吗?
答案几乎是肯定的。您应该能够通过检查您的 nGinx 日志并查找标准机器人用户代理字段来验证这一点。
被好的机器人程序抓取(可能是理想的,以便出现在搜索引擎中)和被坏的机器人程序 post 发送垃圾邮件是有区别的。这些通常只是试图 post 例如带有垃圾链接等的博客评论部分
要管理哪些商品机器人会抓取您,您应该使用 robots.txt。
另一方面,不良机器人不会尊重 robots.txt,甚至可能会欺骗他们的用户代理,因此您不能使用它来阻止他们。
验证码,或 recaptcha challenge would work. Alternatively consider using a Cloudflare 帐户。他们在 Internet 和您的站点之间实施了一个可配置的 Web 应用程序防火墙,并自动阻止了很多此类 activity。