有没有一种编程方式可以强制爬虫不为特定图像编制索引?

Is there a programmatically way to force a crawler to not index specific images?

我想阻止抓取工具将我网站上的特定图像编入索引,但前提是这些图像早于特定日期。但是,爬虫不会停止索引当前链接图像的页面。

我最初的方法是编写一个脚本,将图像的 URL 添加到 'robots.txt',但我认为文件会变得很大,因为我们谈论的潜力非常巨大图片。

我的下一个想法是使用 <meta name="robots" content="noimageindex"> 标签,但我认为这种方法容易出错,因为我可能会忘记将此标签添加到模板中,这样我可能想阻止爬虫程序对图片。这也是多余的,爬虫将忽略所有图像。

我的问题是:如果条件(在我的例子中是日期)为真,您是否知道一种以编程方式强制爬虫不为图像编制索引的方法?还是我唯一可以阻止爬虫将整个页面编入索引的方法?

根据您的想法,您可以创建一个单独的位置来保存您不想被编入索引的图像,编写脚本将文件移动到该位置,一旦它们被 "expired" 并将 url 添加到 robots.txt 文件中。也许像 /expired_images*.