识别搜索爬虫

Identifying Search Crawler

我有一个网站可以计算有多少人访问了该特定页面，但我不想计算搜索爬虫何时访问它们。 java有什么方法可以识别是爬虫还是真实用户？使用 Java7 和 tomcat

谢谢

正如 Henry 提到的，您必须检查每个请求的 User-Agent header。

此外，您可以检查模式是否包含 "bot"、"crawler" 等。另请注意，某些机器人可以使用普通用户 user-agent 字符串来掩盖自己。

这个检查必须很快，所以你需要为爬虫名称创建缓存。或者您可以使用 Google 分析，我认为这不算 web-crawlers.