1.正则化是广泛应用于机器学习和深度学习中的技术,它可以改善过拟合,降低结构风险,提高模型的泛化能力,有必要深入理解正则化技术。
2.正则化是在经验风险项后面加上正则罚项,使得通过最小化经验风险求解模型参数转变为通过最小化结构风险求解模型参数,进而选择经验风险小并且简单的模型。
(1)经验风险: 机器学习模型关于训练数据集的平均损失称为经验风险。度量平均意义下模型预测效果的好坏。 所谓的经验风险最小化便是让这个式子最小化,注意这个式子中累加和的上标N表示的是训练样例集中样本的数目。
常见损失函数参考网站:https://zhuanlan.zhihu.com/p/58883095(如:MSE)
(2)期望风险: 运用数学期望计算(预测)全局(即所有数据集)的损失最小,由于所有样本<X,Y>的联合分布率P(X,Y)难以计算,故用局部最优替代全局最优。这也是经验风险最小化的理论基础。
(3)结构化风险 只考虑经验风险会导致过拟合的现象,因此在经验风险函数后面加一个正则化项(惩罚项)即为结构化风险,计算公式如下:
λ \lambda λ 是一个大于0的系数。J(f)表示的是是模型f的复杂度(即Lp范数),模型f越复杂,J(f)值就越大,模型越简单,J(f)值就越小。
详细见:
https://www.cnblogs.com/ying-chease/p/10593123.html
(1)首先介绍一下范数的定义,假设 x 是一个向量,它的 L p \ L^p Lp 范数定义: 加了正则化项后的目标函数为: 式中 λ 2 m \frac{\lambda}{2m} 2mλ 是一个常数, m 为样本个数, λ \lambda λ 是一个超参数,用于控制正则化程度。 L 1 L^1 L1 正则化时,对应惩罚项为 L1 范数 : L 2 L^2 L2 正则化时,对应惩罚项为 L2 范数: 从上式可以看出, L 1 L^1 L1正则化通过让原目标函数加上了所有特征系数绝对值的和来实现正则化,而 L 2 L^2 L2正则化通过让原目标函数加上了所有特征系数的平方和来实现正则化.
两者都是通过加上一个和项来限制参数大小,却有不同的效果: L 1 L^1 L1 正则化更适用于特征选择,而 L 2 L^2 L2正则化更适用于防止模型过拟合。
(2)想要更加深入地了解 L 1 L^1 L1和 L 2 L^2 L2正则化在梯度下降上的区别,参考:
https://www.jianshu.com/p/569efedf6985
