使用最小二乘法v/s sklearn回归法时要选择的样本?
Sample to choose when using Least square method v/s sklearn Regression method?
在使用 sklearn 线性回归库时,当我们使用 traintestsplit 拆分数据时,我们是否必须使用 OLS(最小二乘法)的训练数据,或者我们可以使用 OLS 方法的完整数据并推导回归结果。
数据科学家作为初学者会犯很多错误,其中之一就是在学习过程中使用测试数据作为某种东西,请看这张来自 here 的图表:
如您所见,数据在训练过程中是分开的,保持这种方式非常重要。
现在你问的问题是关于最小二乘法的,虽然你可能认为通过使用完整数据你正在改进过程,你忘记了评估部分然后会更好不是因为回归更好。它更好,因为您已经向模型展示了您正在测试它的数据。
在使用 sklearn 线性回归库时,当我们使用 traintestsplit 拆分数据时,我们是否必须使用 OLS(最小二乘法)的训练数据,或者我们可以使用 OLS 方法的完整数据并推导回归结果。
数据科学家作为初学者会犯很多错误,其中之一就是在学习过程中使用测试数据作为某种东西,请看这张来自 here 的图表:
如您所见,数据在训练过程中是分开的,保持这种方式非常重要。
现在你问的问题是关于最小二乘法的,虽然你可能认为通过使用完整数据你正在改进过程,你忘记了评估部分然后会更好不是因为回归更好。它更好,因为您已经向模型展示了您正在测试它的数据。