构建模型,在两个 类 之间的差异太大时做出决策

Building model that makes a decision where difference between two classes is too large

目前,我正在构建一个 ML 模型,用于根据某些条件使用 classifier 做出决策。顺便说一句,我收集的数据太不正常了:假设我的数据被class化为A和B,class A的记录比class B约1:300.

有什么方法可以处理这个模型吗?我尝试了很多不同的方法,但结果都是过拟合。

你表述为太不正常的问题在machine-learning、data-mining中称为不平衡数据集,统计数据,...社区。这是 类 未被平等代表的情况。

这种情况并不少见。事实上,在许多分类问题中,感兴趣的事件并不经常发生,这就是它感兴趣的原因。因此,与其他标签相比,此事件发生的标签很少见。

有很多不同的方法来处理不平衡的数据集,在大多数情况下,试图使它平衡。 Under-sampling 和 Over-sampling 是典型的方法。通常,这两者的结合可以得到更好的结果。

第一个 Google 建议给了我这个: