每个输出单元必须有多大不同?

How different does each output unit have to be?

我将以南瓜分类为例。以灰姑娘南瓜为例

对战葫芦南瓜

直觉上,将这些图像分类为两个不同的输出似乎是明智的,cinderella-pumpkingourd-pumpkin,因为它们看起来有多么不同。

我的问题是,如果我采用包含灰姑娘南瓜和葫芦南瓜的图像训练集并将它们都归类到 pumpkin 类别下,网络的性能是否会比如果我反而将它们分为两类?当两个对象如此不同以至于它们应该被放入不同的类别时,阈值是多少?

或者为了清楚起见,举一个更极端的例子,如果我拍了猫的照片和菠萝的照片并将它们归为同一类别,那么在对每个对象进行分类时网络的能力会受到怎样的影响与 if one created a cat output 和 pineapple output?

相比

这取决于你训练观察的内在相似性。我没有设置阈值:我使用幂迭代聚类(或其他无监督分类)来指导我在训练数据中存在显着差异的地方。 k-means 也是一种流行的选择,因为它是一种常见的实现方式,并且相对容易理解。

另一个考虑因素是 "non-pumpkin" 数据的相似性,例如篮球(与您的灰姑娘相比)。同样,我采用无监督学习方法。在这种情况下,我希望篮球比葫芦更接近灰姑娘。这建议单独 类 南瓜类型 - 或者可能在图像处理中进行更多特征检测,以找到南瓜品种之间的相似性。

有帮助吗?