连接隐藏的卷积层
connecting hidden convolution layers
我研究过普通的全连接ANN,我开始研究convnets。我很难理解隐藏层是如何连接的。我确实理解输入矩阵如何通过每次移动局部感受野并通过 same/shared 权重(对于每个特征图)向前馈送较小的值域到第一个隐藏层中的特征图),因此每个特征图只有一组权重与局部感受野具有相同的结构。如果我错了,请纠正我。然后,特征图使用池化来简化地图。下一部分是当我感到困惑时,这里是一个 link 到 3d CNN 可视化来帮助解释我的困惑
http://scs.ryerson.ca/~aharley/vis/conv/
在左上角的 pad 中画一个 0-9 之间的数字,您就会看到它是如何工作的。这个真的很酷。因此,在第一个池化层之后的层(第 4 行包含 16 个过滤器)上,如果将鼠标悬停在过滤器上,您可以看到权重如何连接到前一个池化层。在此行尝试不同的过滤器,我不明白的是将第二个卷积层连接到前一个池层的规则。例如,在最左边的过滤器上,它们完全连接到池化层。但是在靠近右边的那些上,它们只连接到之前池化层中的大约 3 个。看起来很随意。
希望我的解释有道理。我基本上对将隐藏池化层连接到以下隐藏卷积层的模式感到困惑。即使我的例子有点奇怪,我仍然希望得到某种解释或 link 一个好的解释。
非常感谢。
欢迎来到自我训练的 CNN 的神奇世界。这很令人困惑,因为网络在训练时制定了这些规则。这是一个图像处理示例;其中大部分恰好以一种与脊椎动物视觉皮层简化模型中的学习大致相似的方式进行训练。
一般来说,第一层的内核 "learn" 到 "recognize" 输入的非常简单的特征:各种方向的线和边。下一层结合了更复杂的特征,可能是一个面向左的半圆,或者一个特定的角度方向。模型越深入,"decisions" 变得越复杂,内核变得越复杂,and/or 越难识别。
从左到右的连通性差异可能是开发人员有意排序,或者仅仅是模型中的情况。有些功能只需要 "consult" 少数前一层的内核;其他人则需要一个全体委员会。请注意简单的特征如何连接到相对较少的内核,而最终的决定是十个类别中的每一个都与最后一个 FC 层中的大部分 "pixel" 级单元进行了核对。
您可能会四处寻找更大的 CNN 实现的一些内核可视化,例如 ILSVRC 中的那些:GoogleNet、ResNet、VGG 等。它们在层中有一些引人注目的内核,包括与轮子和挡泥板的模糊匹配, 站立哺乳动物的前半部分, 各种类型的面孔等
这有什么帮助吗?
这一切都是在培训期间有机增长的结果。
我研究过普通的全连接ANN,我开始研究convnets。我很难理解隐藏层是如何连接的。我确实理解输入矩阵如何通过每次移动局部感受野并通过 same/shared 权重(对于每个特征图)向前馈送较小的值域到第一个隐藏层中的特征图),因此每个特征图只有一组权重与局部感受野具有相同的结构。如果我错了,请纠正我。然后,特征图使用池化来简化地图。下一部分是当我感到困惑时,这里是一个 link 到 3d CNN 可视化来帮助解释我的困惑
http://scs.ryerson.ca/~aharley/vis/conv/
在左上角的 pad 中画一个 0-9 之间的数字,您就会看到它是如何工作的。这个真的很酷。因此,在第一个池化层之后的层(第 4 行包含 16 个过滤器)上,如果将鼠标悬停在过滤器上,您可以看到权重如何连接到前一个池化层。在此行尝试不同的过滤器,我不明白的是将第二个卷积层连接到前一个池层的规则。例如,在最左边的过滤器上,它们完全连接到池化层。但是在靠近右边的那些上,它们只连接到之前池化层中的大约 3 个。看起来很随意。
希望我的解释有道理。我基本上对将隐藏池化层连接到以下隐藏卷积层的模式感到困惑。即使我的例子有点奇怪,我仍然希望得到某种解释或 link 一个好的解释。
非常感谢。
欢迎来到自我训练的 CNN 的神奇世界。这很令人困惑,因为网络在训练时制定了这些规则。这是一个图像处理示例;其中大部分恰好以一种与脊椎动物视觉皮层简化模型中的学习大致相似的方式进行训练。
一般来说,第一层的内核 "learn" 到 "recognize" 输入的非常简单的特征:各种方向的线和边。下一层结合了更复杂的特征,可能是一个面向左的半圆,或者一个特定的角度方向。模型越深入,"decisions" 变得越复杂,内核变得越复杂,and/or 越难识别。
从左到右的连通性差异可能是开发人员有意排序,或者仅仅是模型中的情况。有些功能只需要 "consult" 少数前一层的内核;其他人则需要一个全体委员会。请注意简单的特征如何连接到相对较少的内核,而最终的决定是十个类别中的每一个都与最后一个 FC 层中的大部分 "pixel" 级单元进行了核对。
您可能会四处寻找更大的 CNN 实现的一些内核可视化,例如 ILSVRC 中的那些:GoogleNet、ResNet、VGG 等。它们在层中有一些引人注目的内核,包括与轮子和挡泥板的模糊匹配, 站立哺乳动物的前半部分, 各种类型的面孔等
这有什么帮助吗?
这一切都是在培训期间有机增长的结果。