随机森林的可能算法

Possible Algorithms for Random Forest

我正在研究随机森林,我正在寻找随机森林的算法。

我已经查找了 决策树 的算法(例如 ID3、C4.5、CART)。

但是算法随机森林有什么不同?用文献没完全看懂

你能说 bagging 和 ExtraTrees 是例子吗?

提前致谢

任何树集成(即 森林),依赖于注入随机的各种方式来生长多样化和不相关的树,可以被称为随机森林。随机森林的所有变体都基于相同的原则,即我们可以使单个树越多样化,由此产生的泛化误差就越低。

一种这样的注入随机性的方法称为 Bootstrap Aggregating(Bagging ),它在发送到每棵树的 数据集 中注入随机性**。另一个是 Random Subspace method, that basically randomly samples a subset of features at each tree node, to find the best (feature, value) split (instead of considering all features). Here the randomness lies in tree building process. ExtraTree is another example that introduces randomness in tree building phase, first by randomly selecting cut-point for each feature, then choosing the best (feature, value) split. An interesting variant 有意地 在每个基础树的数据集中独立引入标签噪声——我想你明白了。

然而,对于许多人来说,随机森林一词实际上是指随机森林家族中最著名的成员,即 Breiman 著名的 paper 中详述的变体。这基本上使用了上面讨论的 Bagging 和 Random 子空间方法,仅此而已!

**数据集随机化技术,如装袋或标签噪声技术,可以与决策树以外的任何算法一起使用。所以 Bagging 并不完全是随机森林的一个例子——它更像是随机森林的一个组成部分。