随机森林中的袋外误差图

Out-Of-Bag error plot in Random Forest

我尝试将随机森林拟合到我的数据集中,以在对照组和阿尔茨海默病组之间进行 class 化。在第一次尝试中,我得到了左侧的 OOB 错误图,在第二次尝试中,我减少了数据集中的变量数量,得到了右侧的 OOB 错误图。我的问题是比较这两个图,什么是更好的 OOB 图?Alzhemier 和 Control 的 class 错误是否应该接近森林的 OOB 曲线?如果是,为什么?

右边的图有更好的OOB错误。我假设阿尔茨海默氏症和控制线也是 OOB 错误,但针对特定的 classes 进行了计算。随机森林预测器是通过自举一小部分样本构建的,OOB 误差是在算法的每次迭代中未选择(袋外)的样本上计算的。因此,OOB 误差是对 Breinman 描述的模型构建时的性能估计,误差越小越好。

"should the class error for Alzheimer and Control be closer to OOB curve of the Forest?." 这取决于您的模型在预测每个 class 方面的表现。如果两个 classes 的 classification 错误相似,那么 OOB 错误将接近两者。