如何防止搜索引擎索引 ajax 生成的内容

How to prevent search engines from indexing ajax-generated content

不久前 Google 宣布现在它的爬虫能够索引 ajax 页面上生成的内容(您只需要遵循一些规则)。但就我而言,我需要确保任何搜索引擎 无法 抓取我的 ajax 生成的内容。所以,问题是:
如何防止搜索引擎索引 ajax 生成的内容?


非常感谢!

阅读有关此主题的 Google's documentation 是一个好的开始。

如果您没有任何主题标签,请像往常一样在 robots.txt 中屏蔽此页面。 Google 应该尊重这一点,但请记住,其他爬虫,尤其是那些鲜为人知的爬虫可能不会。

想到的另一个想法是根据您的 AJAX 请求检查用户代理。但话又说回来,这并不能阻止用户代理欺骗,因此仍然会有一部分 rouge crawlers 可以获取您的敏感内容。

您可能会找到一些其他解决方案,也许是一种聪明的 JavaScript 破解,这将阻止大多数爬虫下载您的内容,但这种方法永远不会可靠或可持续,因为最终,有人承诺24/7 全天候制作更好的爬虫。

如果您的目标是绝对确保某些内容未编入索引,那么 AJAX 与否并不重要。任何敏感数据都需要隐藏在某种身份验证或图灵测试(如验证码)之后。