梯度下降你真的懂吗

mac2022-06-30 34

1. 简单梯度下降例子

已知：（X,Y）=（X,f(x)）对应的数据(1,1)，(2,1.8)，(3,3.2)，(4,3.8)，(5,5.25)，找到这些点拟合出的函数？

假设：的函数最简单的形式为 $h(x)=\theta x$ 目标： $\min_{ \theta} L(\theta)=\frac{1}{2N} \sum_{i} \left( h(x_i)-f(x_i) \right) ^2$

开始：

STEP1：开始我们随意假设 $\theta =0.5$

STEP2：计算损失值。得出损失值为3.202（损失太大， $\theta$ 不合理） $L(0.5)=\frac{1}{2*5} [(1-0.5*1)^2+(1.8-2*0.5)^2+ (3.2-3*0.5)^2+\\(3.8-4*0.5)^2+(5.25-5*0.5)^2] \\= 3.202$

STEP3：更新优化 $\theta$ ，更新方法为 $\theta <= \theta-\alpha\frac{\partial L(\theta)}{\partial \theta}$ ，其中 $\alpha$ 为学习率在（0，1）范围内，假设 $\alpha=0.05$ （在实际的应用中 $\alpha$ 是需要设定的）因此， $\theta=0.5-0.05*\frac{1}{5}[(0.5*1-1)*1+(0.5*2-1.8)*2+(0.5*3-3.2)*3+\\(0.5*4-3.8)*4+(0.5*5-5.25)*5] \\=0.5-(0.05*(-\frac{39.4}{5}))=0.894$

STEP4：按照STEP2计算损失值。得出损失值为0.093828（损失已经很小了， $\theta$ 还可以继续优化下去） $L(0.894)=\frac{1}{2*5} [(1-0.894*1)^2+(1.8-2*0.894)^2+ (3.2-3*0.894)^2+\\(3.8-4*0.894)^2+(5.25-5*0.894)^2] \\= \frac{1}{10}[0.106^2+0.012^2+0.518^2+0.224^2+0.78^2]=0.093828$

STEP5：按照上述步骤继续优化 $\theta$ ，最终我们可以得出很好的函数来逼近已知数据。

2. 问题思考

可以看出，上面的例子中 $\theta$ 的初始值以及学习率 $\alpha$ 是关键。其实， $\theta$ 的初始值设置不是问题。就目标函数而言，这里 $\min_{ \theta} L(\theta)=\frac{1}{2N} \sum_{i} \left( h(x_i)-f(x_i) \right) ^2\\=\frac{1}{2N} \sum_{i} \left( \theta x_i-f(x_i) \right) ^2$ 损失函数是关于 $\theta$ 的二次函数，二次函数求最小值，令其导数=0（基础，对于连续函数，导数=0处的点为驻点，驻点是可能的极值点，也有可能是鞍点）。其实， $\theta$ 的初始选择不是问题，无非就是选的距离最优点近一些就快一些，否则就会慢一些。解释如下图：

然而， $\alpha$ 学习率的选择将是一个影响沿着梯度下降方向迈出多大步子的问题，步子迈大了，可能会迈过最优点，步子迈小了，需要多轮iteration，耗时一些。

3. 多个参数求解

上面说的是最简单的一个参数问题，多个参数比较复杂，原理是一样，给定初始参数值，按照梯度下降更新梯度，需要说明，每次求最优，是需要各个参数求偏导数同时满足=0，并按照各自的梯度同时更新各自的参数。

最新回复(0)