具有非常大的 λ 的正则化成本函数

Regularized cost function with very large λ

考虑机器学习中正则化的成本函数：

为什么我们把参数λ设置的很大，参数θ会趋近于0？

正则化成本函数受到参数 θ 大小的惩罚。

在 λ → +inf

的情况下正则化项支配成本

值得注意的是，当 λ 非常大时，大部分成本将来自正则化项 λ * sum (θ²) 而不是实际成本 sum((h_θ - y)²)，因此在这种情况下它主要是关于通过使 θ 趋于 0 (θ → 0)

来最小化正则化项 λ * sum (θ²)

为什么最小化 λ * sum (θ²) 会导致 θ → 0

考虑正则化项 λ * sum (θ²)，要最小化该项，唯一的解决方案是推送 sum(θ²) → 0。（λ为正常数，sum项也为正数）

并且由于 θ 项是平方的（θ² 总是正数），唯一的方法是将 θ 参数推向 0。因此 sum(θ²) → 0 意味着 θ → 0

所以综上所述，在这种非常大的λ的情况下：

成本函数最小化主要是最小化λ * sum (θ²)，这就需要最小化sum (θ²)，这就需要θ → 0

一些直觉回答评论里的问题：

将 λ 视为一个参数，用于告诉您想要进行多少正则化。例如。如果在极端情况下你将 λ 设置为 0，那么你的成本函数根本就没有正则化。如果您将 λ 设置为较小的数字，那么您将获得较少的正则化。

反之亦然，增加 λ 越多，要求成本函数正则化的次数就越多，因此为了最小化正则化成本函数，参数 θ 必须越小。

为什么我们在正则化和中使用θ²而不是θ？

因为目标是小的θ（不太容易过拟合）。如果正则化项在总和中使用 θ 而不是 θ²，你最终可以得到 大的 θ 值，它们相互抵消 ，例如θ_1 = 1000000 和 θ_2 = -1000001，这里的 sum(θ) 是 -1，它很小，如果你取 sum(|θ|)（绝对值）或 sum(θ²)（平方）你最终会具有很大的价值。

在那种情况下，由于项相互抵消而逃脱了正则化的大 θ 值，您最终可能会过度拟合。

另请注意，求和（在 lambda 之后）不包括 theta(0)。希望这对您有所帮助！

大家好，很晚才开始讨论，但我刚刚开始学习那门课程，这就是我的理解。

基本上，Andrew 试图将多项式方程转换为二次方程，通过这样做，他惩罚了几个 theta 参数，将它们等同于零，这避免了过度拟合的问题，因为你现在有一个方程有理解了重要的特征而忽略了不重要的特征。

但是，我们还需要调整代价函数。对于过度拟合方程，成本值理想情况下为零，这是不正确的。所以我们添加

仔细一看，这是从j到n还有一部分，

从 i 开始到 n。

大 lambda 有什么问题？

对于较大的 lambda，成本会激增并且曲线现在会欠拟合。选择正确的 lambda 值很重要。如果您碰巧选择了大的 lambda，那么选择非常非常小的 theta 也很重要，这样成本函数仍在控制之中。这是一个问题，我们希望在一天结束时膨胀多少成本来控制 lambda 和 theta 的值。

具有非常大的 λ 的正则化成本函数

Regularized cost function with very large λ

optimization

artificial-intelligence

machine-learning