使用 KNN 对不均匀采样数据进行分类
Classification of unevenly sampled data using KNN
我有一个数据集,其中 class 0
为 360 samples
,class 1
为 44 samples
。当我使用 k=3
将 KNN model
拟合到数据时,模型将大量样本错误分类为 class 0
。处理此类采样数据不均匀的最佳方法是什么?我可以设置 k=1
但从我读到的内容会导致产生强烈影响的噪音。
在 CrossValidated 上查看 this discussion,尤其是第三个答案。例如,提到的一种方法是对邻居进行权衡 "by the inverse of their class size"。在您使用 k=3
的示例中,这意味着在两个最近的邻居是 class 0
并且一个最近的邻居是 class 1
的情况下,标签将是 class 1
,因为 1 /44 > 2/360。这只是一种方法,您可以在上面链接的讨论中查看更多方法。希望对您有所帮助!
我有一个数据集,其中 class 0
为 360 samples
,class 1
为 44 samples
。当我使用 k=3
将 KNN model
拟合到数据时,模型将大量样本错误分类为 class 0
。处理此类采样数据不均匀的最佳方法是什么?我可以设置 k=1
但从我读到的内容会导致产生强烈影响的噪音。
在 CrossValidated 上查看 this discussion,尤其是第三个答案。例如,提到的一种方法是对邻居进行权衡 "by the inverse of their class size"。在您使用 k=3
的示例中,这意味着在两个最近的邻居是 class 0
并且一个最近的邻居是 class 1
的情况下,标签将是 class 1
,因为 1 /44 > 2/360。这只是一种方法,您可以在上面链接的讨论中查看更多方法。希望对您有所帮助!