pytorch 中的加权随机采样器

Weighted Random Samplers in pytorch

我是采样器的新手，不明白为什么我们应该使用加权随机采样器。谁能给我解释一下？另外，我们应该为验证集使用加权随机采样器吗？

这是一个非常独立于 PyTorch 的问题，因此可能看起来有点离题。

执行一项 class 化任务，您的数据集可能包含某个 class 的更多实例，导致此 class 过多。这通常会导致一些问题。实际上，在训练过程中，您的模型会看到一个 class 中的实例多于其他实例。从这个意义上说，它可能会偏向那个突出的 class.

为了解决这个问题，您可以使用加权采样器来有效平衡不相等数量的实例，这样，平均，在一个时期内，模型将看到尽可能多的实例属于您的每个 classes 的示例。这将允许对您的 class 进行平衡学习，而与您可能每个 class.

具有不同数量实例的事实无关

为了回答你的第二个问题，我认为你不应该在你的验证中使用加权采样器。无需采用特定的抽样政策。验证的目的是查看 fixed 模型在未见数据上的性能。与测试集类似，您无法访问 class 统计信息来实际使用加权采样器。