机器学习——在训练数据中引入偏差

Machine learning - introducing a bias in training data

我有用于训练的数据。当我将其输入我的神经网络时,该数据有 3% 的误差。

我知道这个数据有一定的过度表达 - 例如,class 5 大约是其他 classes 的十分之一。

我的作业指出我可以通过调整训练数据来提高检测率 - 即通过删除或复制某些数据。然而,在我看来,神经网络应该能够自动解决这个问题,而我所做的任何修改只会大大降低网络的准确性。

我特别困惑,因为我应该判断网络是否改进的方法是根据 原始 训练分区进行测试。在我看来,使用训练分区的修改版本进行训练总是会让你在原始训练分区上的检测率更差,但分配似乎另有说明。

由于这是作业,我希望得到提示而不是直接的答案。

It seems to me that using a modified version of the training partition to train will always give you a worse detection rate on the original training partition, but the assignment seems to indicate otherwise.

总之这不是真的。训练集可以帮助您最小化经验风险(试验集上的错误)。另一方面,您正在尝试将泛化风险(测试集上的错误)降到最低,而在这里 - 添加一些额外的偏差(以多种形式)实际上可能会有所帮助,因为它可以防止您过度拟合。特别是,在处理 类 的高度不平衡时,经验风险最小化可能会导致完全忽略少数(特别是在基于 SGD 的方法中,单次更新可能不足以摆脱更大的更强大的吸引子) 类),因此偏差(以某种方式)可能会改善整体分类。