训练数据标记可能不是 100% 准确的机器学习
Machine learning where labelling of training data might not be 100% accurate
我有一个数据集,其中包含患有糖尿病和未患糖尿病的人。使用这些数据,我想训练一个模型来计算糖尿病状况不明的人的风险概率。我知道在培训中没有被诊断出患有糖尿病的大多数人都没有糖尿病,但很可能其中一些人可能患有未确诊的糖尿病。
这似乎是第 22 条军规。我想识别有风险或可能患有未确诊糖尿病的人,但我知道我的训练数据集中的一些人被错误地标记为没有糖尿病,因为他们尚未被诊断出来。有没有人遇到过这样的问题?如果它只占数据的一小部分,是否仍然可以在可能存在一些错误标记的数据的基础上继续进行?
可能有多种方法可以解决您的问题。
首先 - 它可能毕竟不是问题。如果错误标记的数据只占训练集的一小部分,则可能无关紧要。实际上,在某些情况下,添加错误标记的数据或只是随机噪声可以提高分类器的稳健性和泛化能力。
其次 - 您可能希望使用训练集来训练分类器,然后检查分类器给出错误分类的数据点。分类器可能实际上是正确的,并将您引导至错误标记的数据。如果可能的话,随后可以手动检查此数据。
第三 - 您可以使用共识过滤器等方法预先过滤数据。这篇文章可能是您开始研究该主题的好方法:Identifying Mislabeled Training Data - C.E. Brody and M.A. Friedl。
我有一个数据集,其中包含患有糖尿病和未患糖尿病的人。使用这些数据,我想训练一个模型来计算糖尿病状况不明的人的风险概率。我知道在培训中没有被诊断出患有糖尿病的大多数人都没有糖尿病,但很可能其中一些人可能患有未确诊的糖尿病。
这似乎是第 22 条军规。我想识别有风险或可能患有未确诊糖尿病的人,但我知道我的训练数据集中的一些人被错误地标记为没有糖尿病,因为他们尚未被诊断出来。有没有人遇到过这样的问题?如果它只占数据的一小部分,是否仍然可以在可能存在一些错误标记的数据的基础上继续进行?
可能有多种方法可以解决您的问题。
首先 - 它可能毕竟不是问题。如果错误标记的数据只占训练集的一小部分,则可能无关紧要。实际上,在某些情况下,添加错误标记的数据或只是随机噪声可以提高分类器的稳健性和泛化能力。
其次 - 您可能希望使用训练集来训练分类器,然后检查分类器给出错误分类的数据点。分类器可能实际上是正确的,并将您引导至错误标记的数据。如果可能的话,随后可以手动检查此数据。
第三 - 您可以使用共识过滤器等方法预先过滤数据。这篇文章可能是您开始研究该主题的好方法:Identifying Mislabeled Training Data - C.E. Brody and M.A. Friedl。