随机森林比线性回归差?这很正常,是什么原因?

Random forest is worse than linear regression? It it normal and what is the reason?

我正在尝试使用机器学习来预测数据集。这是一个具有 180 个输入特征和 1 个连续值输出的回归问题。我尝试比较深度神经网络、随机森林回归和线性回归。

如我所料,3 隐藏层深度神经网络优于其他两种方法,均方根误差 (RMSE) 为 0.1。然而,我意外地看到随机森林甚至比线性回归表现更差(RMSE 0.29 vs. 0.27)。在我的期望中,随机森林可以发现特征之间更复杂的依赖关系以减少错误。我尝试调整随机森林的参数(树数、最大特征、max_depth 等)。我也尝试了不同的K交叉验证,但性能仍然不如线性回归。

我在网上搜索,一个答案说如果特征对协变量具有平滑的、近乎线性的依赖性,线性回归可能表现更好。我不完全明白这一点,因为如果是这样的话,深度神经网络不应该提供很多性能提升吗?

我正在努力给出一个解释。在什么情况下,随机森林比线性回归差,但深度神经网络可以表现得更好?

如果您的特征解释了与目标变量的线性关系,那么线性模型通常比随机森林模型表现更好。这完全取决于你的特征之间的线性关系。

也就是说,线性模型并不优越,随机森林也不如。

尝试使用 scikit-learn 中的 MinMaxScaler() 缩放和转换数据,看看线性模型是否进一步改进

专业提示

如果线性模型很有效,您需要问问自己 为什么?如何?并深入了解这两种模型的基础知识,以了解它为何适用于您的数据。这些问题将引导你更好地进行特征工程师。事实上,Kaggle Grand Masters 确实在堆叠中使用线性模型,通过捕获数据集中的线性关系来获得前 1% 的分数。

所以归根结底,线性模型也能创造奇迹。