平移等变性及其与卷积层和空间池化层的关系
Translational equivariance and its relationship with convolutonal layer and spatial pooling layer
在卷积神经网络模型方面,曾经听过这样一种说法:
One desirable property of convolutions is that they are
translationally equivariant; and the introduction of spatial pooling
can corrupt the property of translationally equivalent.
这句话是什么意思,为什么?
很可能您是从 Bengio's book 那里听说的。我会尽力给你我的解释。
粗略地说,如果f(g(x)) = g(f(x))
,两个变换是等变的。在你的卷积和平移的情况下意味着如果你 convolve(translate(x))
它会和你 translate(convolve(x))
一样。这是需要的,因为如果您的卷积会在图像中找到一只猫的眼睛,那么如果您移动图像,它也会找到那只眼睛。
这个你可以自己看(我用1d conv只是因为它很容易计算东西)。让 v = [4, 1, 3, 2, 3, 2, 9, 1]
与 k = [5, 1, 2]
进行卷积。结果将是 [27, 12, 23, 17, 35, 21]
现在让我们通过附加一些东西来改变我们的 v v' = [8] + v
。与 k
进行卷积,您将得到 [46, 27, 12, 23, 17, 35, 21]
。就像你一样,结果只是前面的结果加上一些新的东西。
现在是关于空间池化的部分。让我们对第一个结果和第二个结果进行大小为 3 的最大池化。在第一种情况下,您将获得 [27, 35]
,在第二种情况下,您将获得 [46, 35, 21]
。如您所见,27
不知何故消失了(结果已损坏)。如果您采用平均池化,它将更加损坏。
P.S。 max/min 池化是所有池化中平移不变性最高的(如果你可以这么说,如果你比较未损坏元素的数量)。
关于翻译等变 和不变 术语的说明。这些术语不同。
等变翻译意味着输入特征的翻译导致输出的等价翻译。当我们需要找到图案矩形时,这是可取的。
不变的翻译意味着输入的翻译根本不会改变输出。
实现平移不变性非常重要。这实际上意味着在学习了图片左下角的特定模式后,我们的卷积神经网络可以在任何地方(也包括右上角)识别该模式。
正如我们所知,没有中间卷积层的密集连接网络无法实现平移不变性。
我们需要引入卷积层来为深度网络带来泛化能力,并用更少的训练样本学习表征。
在卷积神经网络模型方面,曾经听过这样一种说法:
One desirable property of convolutions is that they are translationally equivariant; and the introduction of spatial pooling can corrupt the property of translationally equivalent.
这句话是什么意思,为什么?
很可能您是从 Bengio's book 那里听说的。我会尽力给你我的解释。
粗略地说,如果f(g(x)) = g(f(x))
,两个变换是等变的。在你的卷积和平移的情况下意味着如果你 convolve(translate(x))
它会和你 translate(convolve(x))
一样。这是需要的,因为如果您的卷积会在图像中找到一只猫的眼睛,那么如果您移动图像,它也会找到那只眼睛。
这个你可以自己看(我用1d conv只是因为它很容易计算东西)。让 v = [4, 1, 3, 2, 3, 2, 9, 1]
与 k = [5, 1, 2]
进行卷积。结果将是 [27, 12, 23, 17, 35, 21]
现在让我们通过附加一些东西来改变我们的 v v' = [8] + v
。与 k
进行卷积,您将得到 [46, 27, 12, 23, 17, 35, 21]
。就像你一样,结果只是前面的结果加上一些新的东西。
现在是关于空间池化的部分。让我们对第一个结果和第二个结果进行大小为 3 的最大池化。在第一种情况下,您将获得 [27, 35]
,在第二种情况下,您将获得 [46, 35, 21]
。如您所见,27
不知何故消失了(结果已损坏)。如果您采用平均池化,它将更加损坏。
P.S。 max/min 池化是所有池化中平移不变性最高的(如果你可以这么说,如果你比较未损坏元素的数量)。
关于翻译等变 和不变 术语的说明。这些术语不同。
等变翻译意味着输入特征的翻译导致输出的等价翻译。当我们需要找到图案矩形时,这是可取的。
不变的翻译意味着输入的翻译根本不会改变输出。
实现平移不变性非常重要。这实际上意味着在学习了图片左下角的特定模式后,我们的卷积神经网络可以在任何地方(也包括右上角)识别该模式。
正如我们所知,没有中间卷积层的密集连接网络无法实现平移不变性。
我们需要引入卷积层来为深度网络带来泛化能力,并用更少的训练样本学习表征。