pytorch 中的加权随机采样器
Weighted Random Samplers in pytorch
我是采样器的新手,不明白为什么我们应该使用加权随机采样器。谁能给我解释一下?另外,我们应该为验证集使用加权随机采样器吗?
这是一个非常独立于 PyTorch 的问题,因此可能看起来有点离题。
执行一项 class 化任务,您的数据集可能包含某个 class 的更多实例,导致此 class 过多。这通常会导致一些问题。实际上,在训练过程中,您的模型会看到一个 class 中的实例多于其他实例。从这个意义上说,它可能会偏向那个突出的 class.
为了解决这个问题,您可以使用加权采样器来有效平衡不相等数量的实例,这样,平均,在一个时期内,模型将看到尽可能多的实例属于您的每个 classes 的示例。这将允许对您的 class 进行平衡学习,而与您 可能 每个 class.
具有不同数量实例的事实无关
为了回答你的第二个问题,我认为你不应该在你的验证中使用加权采样器。无需采用特定的抽样政策。验证的目的是查看 fixed 模型在未见数据上的性能。与测试集类似,您无法访问 class 统计信息来实际使用加权采样器。
我是采样器的新手,不明白为什么我们应该使用加权随机采样器。谁能给我解释一下?另外,我们应该为验证集使用加权随机采样器吗?
这是一个非常独立于 PyTorch 的问题,因此可能看起来有点离题。
执行一项 class 化任务,您的数据集可能包含某个 class 的更多实例,导致此 class 过多。这通常会导致一些问题。实际上,在训练过程中,您的模型会看到一个 class 中的实例多于其他实例。从这个意义上说,它可能会偏向那个突出的 class.
为了解决这个问题,您可以使用加权采样器来有效平衡不相等数量的实例,这样,平均,在一个时期内,模型将看到尽可能多的实例属于您的每个 classes 的示例。这将允许对您的 class 进行平衡学习,而与您 可能 每个 class.
具有不同数量实例的事实无关为了回答你的第二个问题,我认为你不应该在你的验证中使用加权采样器。无需采用特定的抽样政策。验证的目的是查看 fixed 模型在未见数据上的性能。与测试集类似,您无法访问 class 统计信息来实际使用加权采样器。