分类器的数据集必须是完美平衡的吗?
Must a dataset for a classifier be perfectly balanced?
在机器学习中,人们普遍认为二进制 classifier 的数据集必须是平衡的:EG。 class 1 50%,class 0 50%。
我的问题是:数据集是否完美平衡(50/50)?我有一个包含 1568 个观察值的数据集:class 1 是 47%,class 0 是 53%。这会产生问题吗?
理想情况下,每一个都有 50% class,在训练模型时会得到很好的结果,因为模型正在寻求优化准确性。
例如,假设你有 99% class 0 和 1% class 1。训练时,你将获得一个总是 classify 的模型0,这样做的话,模型会获得99%的一般准确率,但这就是你想要的吗?平衡这些数据将帮助您避免这种类型的“愚蠢”模型。这是一个极端情况,但这就是使用平衡 class 的原因。
平衡时注意少数人 class 的过度拟合,因此模型将学习 class 多次验证同一样本。
最后,如果您使用的是像您所说的平衡数据 (47%, 53%),则不需要平衡。也许你可以开始平衡大约 35% / 65% 或类似的东西。显然,具有平衡的数据的行为取决于数据集。
在机器学习中,人们普遍认为二进制 classifier 的数据集必须是平衡的:EG。 class 1 50%,class 0 50%。 我的问题是:数据集是否完美平衡(50/50)?我有一个包含 1568 个观察值的数据集:class 1 是 47%,class 0 是 53%。这会产生问题吗?
理想情况下,每一个都有 50% class,在训练模型时会得到很好的结果,因为模型正在寻求优化准确性。
例如,假设你有 99% class 0 和 1% class 1。训练时,你将获得一个总是 classify 的模型0,这样做的话,模型会获得99%的一般准确率,但这就是你想要的吗?平衡这些数据将帮助您避免这种类型的“愚蠢”模型。这是一个极端情况,但这就是使用平衡 class 的原因。
平衡时注意少数人 class 的过度拟合,因此模型将学习 class 多次验证同一样本。
最后,如果您使用的是像您所说的平衡数据 (47%, 53%),则不需要平衡。也许你可以开始平衡大约 35% / 65% 或类似的东西。显然,具有平衡的数据的行为取决于数据集。