具有非常大的 λ 的正则化成本函数

Regularized cost function with very large λ

考虑机器学习中正则化的成本函数:

为什么我们把参数λ设置的很大,参数θ会趋近于0?

正则化成本函数受到参数 θ 大小的惩罚。

λ → +inf

的情况下正则化项支配成本

值得注意的是,当 λ 非常大时,大部分成本将来自正则化项 λ * sum (θ²) 而不是实际成本 sum((h_θ - y)²),因此在这种情况下它主要是关于通过使 θ 趋于 0 (θ → 0)

来最小化正则化项 λ * sum (θ²)

为什么最小化 λ * sum (θ²) 会导致 θ → 0

考虑正则化项 λ * sum (θ²),要最小化该项,唯一的解决方案是推送 sum(θ²) → 0。 (λ为正常数,sum项也为正数)

并且由于 θ 项是平方的(θ² 总是正数),唯一的方法是将 θ 参数推向 0。因此 sum(θ²) → 0 意味着 θ → 0

所以综上所述,在这种非常大的λ的情况下:

成本函数最小化主要是最小化λ * sum (θ²),这就需要最小化sum (θ²),这就需要θ → 0

一些直觉回答评论里的问题:

将 λ 视为一个参数,用于告诉您想要进行多少正则化。例如。如果在极端情况下你将 λ 设置为 0,那么你的成本函数根本就没有正则化。如果您将 λ 设置为较小的数字,那么您将获得较少的正则化。

反之亦然,增加 λ 越多,要求成本函数正则化的次数就越多,因此为了最小化正则化成本函数,参数 θ 必须越小。

为什么我们在正则化和中使用θ²而不是θ?

因为目标是小的θ(不太容易过拟合)。 如果正则化项在总和中使用 θ 而不是 θ², 你最终可以得到 大的 θ 值,它们相互抵消 , 例如θ_1 = 1000000 和 θ_2 = -1000001,这里的 sum(θ) 是 -1,它很小,如果你取 sum(|θ|)(绝对值)或 sum(θ²)(平方)你最终会具有很大的价值。

在那种情况下,由于项相互抵消而逃脱了正则化的大 θ 值,您最终可能会过度拟合。

另请注意,求和(在 lambda 之后)不包括 theta(0)。希望这对您有所帮助!

大家好,很晚才开始讨论,但我刚刚开始学习那门课程,这就是我的理解。

基本上,Andrew 试图将多项式方程转换为二次方程,通过这样做,他惩罚了几个 theta 参数,将它们等同于零,这避免了过度拟合的问题,因为你现在有一个方程有理解了重要的特征而忽略了不重要的特征。

但是,我们还需要调整代价函数。对于过度拟合方程,成本值理想情况下为零,这是不正确的。所以我们添加

仔细一看,这是从j到n还有一部分,

从 i 开始到 n。

大 lambda 有什么问题?

对于较大的 lambda,成本会激增并且曲线现在会欠拟合。选择正确的 lambda 值很重要。如果您碰巧选择了大的 lambda,那么选择非常非常小的 theta 也很重要,这样成本函数仍在控制之中。这是一个问题,我们希望在一天结束时膨胀多少成本来控制 lambda 和 theta 的值。