如何select 噪声(分散)数据的回归算法?
How to select regression algorithm for noisy (scattered) data?
我打算用多个变量做回归分析。在我的数据中,我有 n = 23 个特征和 m = 13000 个训练示例。这是我的训练数据图(房屋面积与价格):
图上有13000个训练样例。如您所见,这是相对嘈杂的数据。我的问题是在我的案例中使用哪种回归算法更合适和合理。我的意思是使用简单线性回归或一些非线性回归算法更合乎逻辑。
为了更清楚,我提供了一些示例。
这是线性回归拟合的一些无关示例:
以及一些无关的非线性回归拟合示例:
现在我为我的数据提供一些假设的回归线:
我的数据的 AFAIK 原始线性回归会产生非常高的错误成本,因为它是非常嘈杂和分散的数据。另一方面,没有明显的非线性模式(例如正弦曲线)。在我的案例(房价数据)中使用哪种回归算法更合理,以便获得或多或少合适的房屋价格预测,以及为什么该算法(线性或非线性)更合理?
使用非线性算法将减少训练集的误差,因为您将使用 'fits' 数据更好的曲线。但是,它可能会导致 overfitting。
为避免这种情况,一个好办法是同时绘制训练数据和测试数据上的误差(成本函数)。为您的模型增加更多的复杂性将减少训练数据的错误,但在某一时刻它会使您的测试数据的错误更高。
我打算用多个变量做回归分析。在我的数据中,我有 n = 23 个特征和 m = 13000 个训练示例。这是我的训练数据图(房屋面积与价格):
图上有13000个训练样例。如您所见,这是相对嘈杂的数据。我的问题是在我的案例中使用哪种回归算法更合适和合理。我的意思是使用简单线性回归或一些非线性回归算法更合乎逻辑。
为了更清楚,我提供了一些示例。
这是线性回归拟合的一些无关示例:
以及一些无关的非线性回归拟合示例:
现在我为我的数据提供一些假设的回归线:
使用非线性算法将减少训练集的误差,因为您将使用 'fits' 数据更好的曲线。但是,它可能会导致 overfitting。
为避免这种情况,一个好办法是同时绘制训练数据和测试数据上的误差(成本函数)。为您的模型增加更多的复杂性将减少训练数据的错误,但在某一时刻它会使您的测试数据的错误更高。