具有非常大的 λ 的正则化成本函数
Regularized cost function with very large λ
考虑机器学习中正则化的成本函数:
为什么我们把参数λ设置的很大,参数θ会趋近于0?
正则化成本函数受到参数 θ 大小的惩罚。
在 λ → +inf
的情况下正则化项支配成本
值得注意的是,当 λ 非常大时,大部分成本将来自正则化项 λ * sum (θ²)
而不是实际成本 sum((h_θ - y)²)
,因此在这种情况下它主要是关于通过使 θ 趋于 0 (θ → 0
)
来最小化正则化项 λ * sum (θ²)
为什么最小化 λ * sum (θ²)
会导致 θ → 0
考虑正则化项 λ * sum (θ²)
,要最小化该项,唯一的解决方案是推送 sum(θ²) → 0
。 (λ
为正常数,sum
项也为正数)
并且由于 θ
项是平方的(θ²
总是正数),唯一的方法是将 θ
参数推向 0。因此 sum(θ²) → 0
意味着 θ → 0
所以综上所述,在这种非常大的λ的情况下:
成本函数最小化主要是最小化λ * sum (θ²)
,这就需要最小化sum (θ²)
,这就需要θ → 0
一些直觉回答评论里的问题:
将 λ 视为一个参数,用于告诉您想要进行多少正则化。例如。如果在极端情况下你将 λ 设置为 0,那么你的成本函数根本就没有正则化。如果您将 λ 设置为较小的数字,那么您将获得较少的正则化。
反之亦然,增加 λ 越多,要求成本函数正则化的次数就越多,因此为了最小化正则化成本函数,参数 θ 必须越小。
为什么我们在正则化和中使用θ²而不是θ?
因为目标是小的θ(不太容易过拟合)。
如果正则化项在总和中使用 θ 而不是 θ²,
你最终可以得到 大的 θ 值,它们相互抵消 ,
例如θ_1 = 1000000 和 θ_2 = -1000001,这里的 sum(θ)
是 -1,它很小,如果你取 sum(|θ|)
(绝对值)或 sum(θ²)
(平方)你最终会具有很大的价值。
在那种情况下,由于项相互抵消而逃脱了正则化的大 θ 值,您最终可能会过度拟合。
另请注意,求和(在 lambda 之后)不包括 theta(0)。希望这对您有所帮助!
大家好,很晚才开始讨论,但我刚刚开始学习那门课程,这就是我的理解。
基本上,Andrew 试图将多项式方程转换为二次方程,通过这样做,他惩罚了几个 theta 参数,将它们等同于零,这避免了过度拟合的问题,因为你现在有一个方程有理解了重要的特征而忽略了不重要的特征。
但是,我们还需要调整代价函数。对于过度拟合方程,成本值理想情况下为零,这是不正确的。所以我们添加
仔细一看,这是从j到n还有一部分,
从 i 开始到 n。
大 lambda 有什么问题?
对于较大的 lambda,成本会激增并且曲线现在会欠拟合。选择正确的 lambda 值很重要。如果您碰巧选择了大的 lambda,那么选择非常非常小的 theta 也很重要,这样成本函数仍在控制之中。这是一个问题,我们希望在一天结束时膨胀多少成本来控制 lambda 和 theta 的值。
考虑机器学习中正则化的成本函数:
为什么我们把参数λ设置的很大,参数θ会趋近于0?
正则化成本函数受到参数 θ 大小的惩罚。
在 λ → +inf
值得注意的是,当 λ 非常大时,大部分成本将来自正则化项 λ * sum (θ²)
而不是实际成本 sum((h_θ - y)²)
,因此在这种情况下它主要是关于通过使 θ 趋于 0 (θ → 0
)
λ * sum (θ²)
为什么最小化 λ * sum (θ²)
会导致 θ → 0
考虑正则化项 λ * sum (θ²)
,要最小化该项,唯一的解决方案是推送 sum(θ²) → 0
。 (λ
为正常数,sum
项也为正数)
并且由于 θ
项是平方的(θ²
总是正数),唯一的方法是将 θ
参数推向 0。因此 sum(θ²) → 0
意味着 θ → 0
所以综上所述,在这种非常大的λ的情况下:
成本函数最小化主要是最小化λ * sum (θ²)
,这就需要最小化sum (θ²)
,这就需要θ → 0
一些直觉回答评论里的问题:
将 λ 视为一个参数,用于告诉您想要进行多少正则化。例如。如果在极端情况下你将 λ 设置为 0,那么你的成本函数根本就没有正则化。如果您将 λ 设置为较小的数字,那么您将获得较少的正则化。
反之亦然,增加 λ 越多,要求成本函数正则化的次数就越多,因此为了最小化正则化成本函数,参数 θ 必须越小。
为什么我们在正则化和中使用θ²而不是θ?
因为目标是小的θ(不太容易过拟合)。
如果正则化项在总和中使用 θ 而不是 θ²,
你最终可以得到 大的 θ 值,它们相互抵消 ,
例如θ_1 = 1000000 和 θ_2 = -1000001,这里的 sum(θ)
是 -1,它很小,如果你取 sum(|θ|)
(绝对值)或 sum(θ²)
(平方)你最终会具有很大的价值。
在那种情况下,由于项相互抵消而逃脱了正则化的大 θ 值,您最终可能会过度拟合。
另请注意,求和(在 lambda 之后)不包括 theta(0)。希望这对您有所帮助!
大家好,很晚才开始讨论,但我刚刚开始学习那门课程,这就是我的理解。
基本上,Andrew 试图将多项式方程转换为二次方程,通过这样做,他惩罚了几个 theta 参数,将它们等同于零,这避免了过度拟合的问题,因为你现在有一个方程有理解了重要的特征而忽略了不重要的特征。
但是,我们还需要调整代价函数。对于过度拟合方程,成本值理想情况下为零,这是不正确的。所以我们添加
仔细一看,这是从j到n还有一部分,
从 i 开始到 n。
大 lambda 有什么问题?
对于较大的 lambda,成本会激增并且曲线现在会欠拟合。选择正确的 lambda 值很重要。如果您碰巧选择了大的 lambda,那么选择非常非常小的 theta 也很重要,这样成本函数仍在控制之中。这是一个问题,我们希望在一天结束时膨胀多少成本来控制 lambda 和 theta 的值。