平移等变性及其与卷积层和空间池化层的关系

Translational equivariance and its relationship with convolutonal layer and spatial pooling layer

在卷积神经网络模型方面，曾经听过这样一种说法：

One desirable property of convolutions is that they are translationally equivariant; and the introduction of spatial pooling can corrupt the property of translationally equivalent.

这句话是什么意思，为什么？

很可能您是从 Bengio's book 那里听说的。我会尽力给你我的解释。

粗略地说，如果f(g(x)) = g(f(x))，两个变换是等变的。在你的卷积和平移的情况下意味着如果你 convolve(translate(x)) 它会和你 translate(convolve(x)) 一样。这是需要的，因为如果您的卷积会在图像中找到一只猫的眼睛，那么如果您移动图像，它也会找到那只眼睛。

这个你可以自己看（我用1d conv只是因为它很容易计算东西）。让 v = [4, 1, 3, 2, 3, 2, 9, 1] 与 k = [5, 1, 2] 进行卷积。结果将是 [27, 12, 23, 17, 35, 21]

现在让我们通过附加一些东西来改变我们的 v v' = [8] + v。与 k 进行卷积，您将得到 [46, 27, 12, 23, 17, 35, 21]。就像你一样，结果只是前面的结果加上一些新的东西。

现在是关于空间池化的部分。让我们对第一个结果和第二个结果进行大小为 3 的最大池化。在第一种情况下，您将获得 [27, 35]，在第二种情况下，您将获得 [46, 35, 21]。如您所见，27 不知何故消失了（结果已损坏）。如果您采用平均池化，它将更加损坏。

P.S。 max/min 池化是所有池化中平移不变性最高的（如果你可以这么说，如果你比较未损坏元素的数量）。

关于翻译等变和不变术语的说明。这些术语不同。

等变翻译意味着输入特征的翻译导致输出的等价翻译。当我们需要找到图案矩形时，这是可取的。

不变的翻译意味着输入的翻译根本不会改变输出。

实现平移不变性非常重要。这实际上意味着在学习了图片左下角的特定模式后，我们的卷积神经网络可以在任何地方（也包括右上角）识别该模式。

正如我们所知，没有中间卷积层的密集连接网络无法实现平移不变性。

我们需要引入卷积层来为深度网络带来泛化能力，并用更少的训练样本学习表征。

平移等变性及其与卷积层和空间池化层的关系

Translational equivariance and its relationship with convolutonal layer and spatial pooling layer

math

machine-learning

computer-vision

deep-learning

tensorflow