识别搜索爬虫

Identifying Search Crawler

我有一个网站可以计算有多少人访问了该特定页面,但我不想计算搜索爬虫何时访问它们。 java有什么方法可以识别是爬虫还是真实用户? 使用 Java7 和 tomcat

谢谢

正如 Henry 提到的,您必须检查每个请求的 User-Agent header。

您可以使用这个蜘蛛列表:http://www.useragentstring.com/pages/Crawlerlist/

此外,您可以检查模式是否包含 "bot"、"crawler" 等。另请注意,某些机器人可以使用普通用户 user-agent 字符串来掩盖自己。

这个检查必须很快,所以你需要为爬虫名称创建缓存。或者您可以使用 Google 分析,我认为这不算 web-crawlers.