我们可以使用深度学习网络来检测有趣或无聊的图片吗?

Can we use Deep Learning networks to detect interesting or boring pictures?

我正在处理一项深度学习分类任务,以区分 image/video 是无聊还是有趣。 基于一万个标记数据(1. 有趣 2. 有点有趣 3. 正常 4. 无聊),我使用了一些预训练的 imagenet 模型(resnet / inception / VGG 等)来微调我的分类任务。

我的训练误差很小,说明已经收敛了。但是测试误差很高,准确率只有35%左右,和随机结果很相似。

我发现困难的部分是:

  1. 同一个物体有不同的标签,比如草地上的狗,也许一只非常可爱的狗可以被标记为有趣的图像。但是一只丑陋的狗可能会被标记为无聊的形象。

  2. 定义有趣或无聊的因素太多了,图像质量,图像颜色,物体,环境......如果我们只是检测良好的图像质量图像或者我们只是检测良好的环境图像,这可能是可能的,但我们如何结合所有这些因素。

  3. 每个人的兴趣点不一样,我可能对宠物感兴趣,其他人可能觉得没意思,但有一些常识大家觉得是一样的。但是如何检测呢?

最后,您认为这是一个可以用深度学习解决的可能问题吗?如果是这样,你将如何处理这个任务?

这是一个非常宽泛的问题。我会尝试给出一些指示:

  1. "My training error is very small... But test error is very high" 表示您 overfit 您的训练集:您的模型学习特定的训练示例,而不是学习一般的 "classification rules" 适用于看不见的示例。
    这通常意味着相对于训练样本的数量,你有太多的可训练参数。
  2. 您的问题不完全是 "classification" 问题:将 "little interesting" 图像分类为 "boring" 比将其分类为 "interesting" 更糟糕。您的标签集有秩序。考虑使用考虑到这一点的损失函数。也许 "InfogainLoss"(如果你想保持离散的标签),或者 "EuclideanLoss"(如果你愿意接受连续的分数)。
  3. 如果你有足够的训练样本,我认为从深度模型中区分 "interesting" 狗图像和 "boring" 图像并不过分。尽管语义差异不大,但图像之间存在差异,深度模型应该可以捕获它。
    但是,您可能希望从针对 "aesthetic" 任务(例如 MemNet, flickr style 等)训练的网络开始微调,而不是像 VGG/GoogLeNet 等那样的 "semantic" 网络。