LR（logistic regression）逻辑回归Loss和梯度的推导

mac2026-05-10 1

逻辑斯蒂回归的先验分布是伯努利分布，softmax的先验分布是多项式分布

LR太简单了，简单到经常被用，但是很多推导仍然迷糊的程度，这篇主要用来总结一下。

线性回归的表达式： $f(x)=w^Tx+b$ 由于带一个b，我们可以令 $x'=[1, x]^T$ ，同时 $w'=[b, w]^T$ ，这样直线方程就可以简化成 $f'(x)=w^{'T}x$ 所以，当有m组训练数据，n维features时，一会儿得到的梯度是n+1维，接下来推梯度，先得推导一下loss function。由于线性回归结果是个实数，为了让他属于(0,1)之间，给它过一个sigmoid。如果是多分类，最后接Softmax。假设有一组样本 $x_1,y_1),(x_2,y_2)...(x_n,y_n)$ ，针对2分类的情况， $y_n=0或1$ ，给定 $x_i$ 的情况下， $y_i$ 是1的概率是 $p_i=\frac{1}{1+exp(-wx_i)}$ ，loss function利用了最大似然的想法： $L=ln[\prod_{i=1}^np_i^{y_i}(1-p_i)^{(1-y_i)}] \\ L=\sum_i[{y_ilnp_i+(1-y_i)ln(1-p_i)]} \\ obj = \argmax_w{L(w)} \\ 当然可以改成 obj = \argmin_w{-L(w)} \\ 所以 \\ L=-\sum_i[{y_ilnp_i+(1-y_i)ln(1-p_i)]}$ 接下来开始求梯度，注意 $\frac{\partial p_i}{\partial w_i} = p_i(1-p_i)x_i$ $\frac{\partial L}{\partial w}=-\sum_{i=1}^nx_i(y_i-p_i)$

最后用Adam求解就可以

另外一个问题是LR是不是凸函数，当然是，因为二阶Hessian矩阵>=0，下面我们求一下二阶导数： $\frac{\partial^2 L}{\partial^2 w}=-\sum_{i=1}^np_i(1-p_i)x_ix_i^T >= 0$

最新回复(0)