使用随机森林算法进行欠采样时,多数投票预测是否有效?
Is majority vote prediction effective when undersampling with the random forest algorithm?
好的,我知道我的问题很奇怪(我是机器学习的新手),我会尝试更具体一些。我有一个包含 7 类 的数据集,频率分别为:211.840、283.301、35.754、2.747、9.493、17.367 和 20.510。由于 类 是不平衡的,我的想法是创建许多不同的欠采样数据集,然后在每个数据集上训练一个随机森林分类器,最后从所有这些分类器的多数投票中得到我的最终预测。我的想法有效吗?我是不是忽略了什么重点?
谢谢
尝试 SMOTE 或其他一些技术来处理 class 不平衡问题。
了解随机森林:
https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
Random Forests 实际上通过获取子样本来种植许多树,然后 class通过对这些树进行投票来进行验证。
您无需再单独执行此操作。
尝试使用不同的 classifier 进行集成。
或者尝试一些其他的提升技术,比如 ADABOOST 算法。
好的,我知道我的问题很奇怪(我是机器学习的新手),我会尝试更具体一些。我有一个包含 7 类 的数据集,频率分别为:211.840、283.301、35.754、2.747、9.493、17.367 和 20.510。由于 类 是不平衡的,我的想法是创建许多不同的欠采样数据集,然后在每个数据集上训练一个随机森林分类器,最后从所有这些分类器的多数投票中得到我的最终预测。我的想法有效吗?我是不是忽略了什么重点?
谢谢
尝试 SMOTE 或其他一些技术来处理 class 不平衡问题。
了解随机森林: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
Random Forests 实际上通过获取子样本来种植许多树,然后 class通过对这些树进行投票来进行验证。 您无需再单独执行此操作。
尝试使用不同的 classifier 进行集成。 或者尝试一些其他的提升技术,比如 ADABOOST 算法。