实例分割方法如何处理部分标记的数据?
How do instance segmentation methods deal with partially labelled data?
假设我有一个包含猫狗标记图像的数据集。假设在包含狗的图像中,只有 50% 的猫实例被标记。此外,我们假设 50% 的包含狗的图像将包含猫。我想用边界框、掩码和分数对狗或猫的每个实例进行分类(即,我正在使用 Mask-RCNN)。
这里的问题是:未标记的猫实例会影响模型的 classification/segmentation 头部吗?有一个简单的原因吗?
我问过的大多数人都声称他们对模型的质量没有影响,但他们无法解释为什么会这样。我认为这里的部分问题在于我对“经典”模型有更多的经验,其中每个数据点都会导致损失。我还认为我对深度学习的 language/jargon 说得不够好,不知道从哪里开始寻找答案。请帮忙!
这取决于学习设置的制定。如果您将每个图像视为样本的集合,即其中包含的对象,每个对象都有其边界框和 {cat, dog}
中的标签,您应该没问题。本质上,您将要求生成一个边界框和一个标签,每一个都将与一个基本事实相匹配。边界框或标签的错误预测将通过将它们与相应的真实情况进行对比来生成错误信号,这意味着您有一些东西可以惩罚您的模型(或训练它)。丢失的标签不会与任何东西形成对比,基本上意味着您只是没有充分利用您的图像,这本身并不会破坏交易。
另一方面,如果您从单个图像生成所有边界框,并惩罚您的模型以创建“冗余”框,则您 运行 有惩罚未标记的正确预测的风险,这确实很糟糕。如果被惩罚的好预测的数量与被惩罚的坏预测的数量相当,那么你弊大于利。
也许要走的路是先只对具有完整和正确标签的图像进行训练,然后继续包括嘈杂的图像,手动检查“额外”预测是否实际上对应于真实但未标记的实体,然后根据需要进行人工循环训练来修复数据。
假设我有一个包含猫狗标记图像的数据集。假设在包含狗的图像中,只有 50% 的猫实例被标记。此外,我们假设 50% 的包含狗的图像将包含猫。我想用边界框、掩码和分数对狗或猫的每个实例进行分类(即,我正在使用 Mask-RCNN)。
这里的问题是:未标记的猫实例会影响模型的 classification/segmentation 头部吗?有一个简单的原因吗?
我问过的大多数人都声称他们对模型的质量没有影响,但他们无法解释为什么会这样。我认为这里的部分问题在于我对“经典”模型有更多的经验,其中每个数据点都会导致损失。我还认为我对深度学习的 language/jargon 说得不够好,不知道从哪里开始寻找答案。请帮忙!
这取决于学习设置的制定。如果您将每个图像视为样本的集合,即其中包含的对象,每个对象都有其边界框和 {cat, dog}
中的标签,您应该没问题。本质上,您将要求生成一个边界框和一个标签,每一个都将与一个基本事实相匹配。边界框或标签的错误预测将通过将它们与相应的真实情况进行对比来生成错误信号,这意味着您有一些东西可以惩罚您的模型(或训练它)。丢失的标签不会与任何东西形成对比,基本上意味着您只是没有充分利用您的图像,这本身并不会破坏交易。
另一方面,如果您从单个图像生成所有边界框,并惩罚您的模型以创建“冗余”框,则您 运行 有惩罚未标记的正确预测的风险,这确实很糟糕。如果被惩罚的好预测的数量与被惩罚的坏预测的数量相当,那么你弊大于利。
也许要走的路是先只对具有完整和正确标签的图像进行训练,然后继续包括嘈杂的图像,手动检查“额外”预测是否实际上对应于真实但未标记的实体,然后根据需要进行人工循环训练来修复数据。