分类中样本数量不均匀如何处理?
How to deal with uneven number of samples in classification?
假设我们有 2 个标签:0 和 1.
label 0的数据个数是1000但是label 1的数据是只是 100.
在这种情况下,分类训练将偏向标签0的结果。
在这种情况下可以做什么?
我们可以生成个样本手动对应于标签1吗?
如果我们可以这样做,如何验证生成的样本与原始数据具有相同的properties/characteristics ?
参见 this aricle。
这是关于一种叫做 SMOTE 的方法,它代表 Synthetic Minority Over-sampling Technique。
基本上,如果您有这样分布的数据(红点数量少,绿点数量多):
您围绕现有样本合成了新样本:
此方法是常用方法之一,在上面链接的文章中有更详细的描述。还有其他更简单的方法,例如从多数 class 中删除一些数据点或复制少数 class.
中的一些数据点
图片摘自文章
假设我们有 2 个标签:0 和 1.
label 0的数据个数是1000但是label 1的数据是只是 100.
在这种情况下,分类训练将偏向标签0的结果。
在这种情况下可以做什么?
我们可以生成个样本手动对应于标签1吗?
如果我们可以这样做,如何验证生成的样本与原始数据具有相同的properties/characteristics ?
参见 this aricle。
这是关于一种叫做 SMOTE 的方法,它代表 Synthetic Minority Over-sampling Technique。
基本上,如果您有这样分布的数据(红点数量少,绿点数量多):
您围绕现有样本合成了新样本:
此方法是常用方法之一,在上面链接的文章中有更详细的描述。还有其他更简单的方法,例如从多数 class 中删除一些数据点或复制少数 class.
中的一些数据点图片摘自文章