CNN 特征的后期融合

Late fusion for the CNN features

我正在研究 CNN 特征的早期和晚期融合。我从多层 CNN 中提取了特征。对于早期融合,我捕获了三个不同层的特征,然后将它们水平连接 F= [F1' F2' F3']; 对于晚期融合,我正在阅读这篇文章 paper。他们提到过两次做监督学习。但是看不懂路

例如,这是从上述论文中截取的图像。 第一张图像具有三个不同的特征,对于第一次监督学习,标签可以说是 4 class 图像集中的 1 个。例如,输出是 [1 1 3]。假设第三个 classifier 结果错误。 那么我的问题是多模态特征连接就像 [1 1 3] 和标签 1 让我们说 class 1 图像?

  • 我的理解可能是错误的,但这是我的理解(我不确定我的回答)
  • 假设您有 2 个 class 并且您有 3 个不同的模型
  • 所以每个模型都会输出一个向量 (2 x 1)
  • 例如

    Model-1 : [[0.3], [0.7]]
    模型 2:[[0.2],[0.8]]
    模型 2:[[0.6],[0.4]]

  • 现在你将连接(Multi-modal特征组合)结果如下:
    [0.3, 0.2, 0.6, 0.7, 0.8, 0.4]

  • 上面的特征向量将作为你最终监督学习器的输入,如图中提到的概念分数作为监督学习器的输入

  • 他们在论文中提到了以下内容:
    我们将视觉向量 vi 与文本向量 ti 连接起来。
    特征归一化后,我们得到早期融合向量ei.
    然后 ei 作为 SVM 的输入。

  • 下面说说这个模型的实现

  • 我会做的是先单独训练 Model-1,单独训练 Model-2,再单独训练 Model-3
  • 现在我将冻结Model-1、Model-2、Model-3的权重并提取分数并将它们组合成上面讨论的特征向量并将其传递给最终的监督学习者并对其进行训练
  • 将三个单峰监督学习器视为特征提取器,并像您对早期融合所做的那样连接它们的结果并将其传递给 SVM
  • 我会使用 class 分数作为特征向量,而不是他们所做的实际预测(您假设)
  • 为什么 class 得分而不是实际预测?因为 class 分数代表单峰预测 classes
  • 的置信度