识别搜索爬虫
Identifying Search Crawler
我有一个网站可以计算有多少人访问了该特定页面,但我不想计算搜索爬虫何时访问它们。 java有什么方法可以识别是爬虫还是真实用户?
使用 Java7 和 tomcat
谢谢
正如 Henry 提到的,您必须检查每个请求的 User-Agent
header。
您可以使用这个蜘蛛列表:http://www.useragentstring.com/pages/Crawlerlist/
此外,您可以检查模式是否包含 "bot"、"crawler" 等。另请注意,某些机器人可以使用普通用户 user-agent 字符串来掩盖自己。
这个检查必须很快,所以你需要为爬虫名称创建缓存。或者您可以使用 Google 分析,我认为这不算 web-crawlers.
我有一个网站可以计算有多少人访问了该特定页面,但我不想计算搜索爬虫何时访问它们。 java有什么方法可以识别是爬虫还是真实用户? 使用 Java7 和 tomcat
谢谢
正如 Henry 提到的,您必须检查每个请求的 User-Agent
header。
您可以使用这个蜘蛛列表:http://www.useragentstring.com/pages/Crawlerlist/
此外,您可以检查模式是否包含 "bot"、"crawler" 等。另请注意,某些机器人可以使用普通用户 user-agent 字符串来掩盖自己。
这个检查必须很快,所以你需要为爬虫名称创建缓存。或者您可以使用 Google 分析,我认为这不算 web-crawlers.