何时使用随机森林

When to use random forest

我了解随机森林模型可用于分类和回归情况。是否有更具体的标准来确定随机森林模型在哪些方面比普通回归(线性、套索等)估计值或逻辑回归分类更好?

随机森林模型的思想是由一堆决策树构建的,它是一种监督集成学习算法,可以减少单个决策树中的over-fitting问题。

机器学习的理论是,没有一个模型可以胜过所有其他模型,因此,始终建议在获得最佳模型之前尝试不同的模型。

话虽如此,在处理不同性质的数据时,模型的选择是有偏好的。每个模型都对数据做出内在假设,而假设与数据最一致的模型通常对数据更有效。例如,逻辑模型适用于具有平滑线性决策边界的分类数据,如果数据具有此特征,而随机森林则不假定平滑线性决策边界。因此,数据的性质会影响您对模型的选择,最好在得出结论之前尝试所有模型。