使用随机森林算法进行欠采样时，多数投票预测是否有效？

Is majority vote prediction effective when undersampling with the random forest algorithm?

好的，我知道我的问题很奇怪（我是机器学习的新手），我会尝试更具体一些。我有一个包含 7 类的数据集，频率分别为：211.840、283.301、35.754、2.747、9.493、17.367 和 20.510。由于类是不平衡的，我的想法是创建许多不同的欠采样数据集，然后在每个数据集上训练一个随机森林分类器，最后从所有这些分类器的多数投票中得到我的最终预测。我的想法有效吗？我是不是忽略了什么重点？

谢谢

尝试 SMOTE 或其他一些技术来处理 class 不平衡问题。

了解随机森林： https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

Random Forests 实际上通过获取子样本来种植许多树，然后 class通过对这些树进行投票来进行验证。您无需再单独执行此操作。

尝试使用不同的 classifier 进行集成。或者尝试一些其他的提升技术，比如 ADABOOST 算法。

使用随机森林算法进行欠采样时，多数投票预测是否有效？

Is majority vote prediction effective when undersampling with the random forest algorithm?

machine-learning

random-forest