机器学习基础——支持向量机2

mac2022-06-30 28

软间隔与正则化

我们一直假定训练样本在样本空间或特征空间中是线性可分的，但是现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分。

缓解该问题的一个方法就是允许向量机在一些样本上出错。

硬间隔（hard margin）要求所有的样本均满足约束，但是软间隔则是允许某些样本不满足约束 $y_i(\pmb{w^Tx_i}+b) \ge 1$ 当然，在最大化间隔的同时，不满足约束的样子应尽可能小，于是，优化目标可以写成： $\underset{w,b}{\min} \frac{1}{2}||\pmb{w}||^2 + C\sum{i=1}^m \ell_{0/1}(y_i(\pmb{w^Tx_i}+b)-1)$ 其中 $C > 0$ 是一个常数， $\ell_{0/1}$ 是0/1损失函数 $\ell_{0/1} = \begin{cases} 1 & if \ z < 0 \\ 0 & otherwise \end{cases}$ 当 $C$ 为无穷大，使得所有样本均满足约束，当 $C$ 取有限值时，允许一些样本不满足约束

然而 $\ell_{0/1}$ 非凸、非连续、数学性质不太好。通常用其他一些函数来代替 $\ell_{0/1}$ 。称为替代损失函数

常用的替代损失函数

hinge 损失：

\ell_{hinge}(z)=\max(0,1-z)

指数损失(exponential loss)：

\ell_{exp}(z) = \exp(-z)

对率损失（logistic loss）

\ell_{log}(z) = log(1+\exp(-z))

若采用hinge损失，则会变成： $\underset{w,b}{\min} \frac{1}{2} ||\pmb{w}||^2 + C\sum_{i=1}^m \max(0,1-y_i(\pmb{w^tx_i}+b))$ 引入松弛变量（slack variables） $\xi_i \ge 0$ ,则公式可以重新写成 $\underset{w,b,\xi_i}{\min} \frac{1}{2} ||\pmb{w}||^2 + C\sum_{i=1}^m \xi_i$

$\ y_i(\pmb{w^Tx_i}+b) \ge 1-\xi_i \\ \xi_i \ge 0,i=1,2,\cdots,m$

类似的，通过拉格朗日乘子法可得拉格朗日函数 $\begin{aligned} L(\pmb{w},b,\alpha,\xi,\mu)& = \frac{1}{2} ||w||^2 + C\sum_{i=1}^m\xi_i \\& +\sum_{i=1}^m \alpha_i(1-\xi_i -y_i(\pmb{w^Tx_i}+b)) - \sum_{i=1}^m \mu_i \xi_i \end{aligned}$ 其中 $\alpha_i\ge 0,\mu_i\ge 0$ 是拉格朗日乘子

令 $L(\pmb{w},b,\pmb{\alpha,\xi,\mu})$ 对 $w,b,\xi_i$ 的偏导为零可得： $\sum_{i=1}^m \alpha_i y_ix_i \\ 0 = \sum_{i=1}^m \alpha_iy_i\\ C = \alpha_i + \mu_i$ 可得对偶问题 $\underset{\alpha}{\max} \sum_{i=1}^m \alpha_i - \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m \alpha_i\alpha_jy_iy_j\pmb{x_i^Tx_j} \\ s.t. \sum_{i=1}^m \alpha_iy_i =0 \\ 0\le \alpha_i\le C,i=1,2,\cdots,m$ 对于软间隔支持向量机，KKT条件要求 $\begin{cases} \alpha_i \ge 0,\mu_i\ge 0\\ \\ y_if(x_i)-1 + \xi_i \ge 0\\ \\ \alpha_i(y_if(x_i)-1 + \xi_i) =0 \\ \\ \xi_i \ge 0,\mu_i\xi_i=0 \end{cases}$ 于是，对于任意训练样本（ $\pmb{x_i},y_i$ ）,总有 $\alpha_i=0$ 或 $y_if(\pmb{x_i})=1-\xi_i$ ，若 $\alpha_i=0$ ，则该样本不会对 $f (x)$ 有任何以你选哪个，若 $\alpha_i > 0$ ，则必有 $y_if(\pmb{x_i})=1-\xi_i$ ，即样本是支持向量。若 $\alpha_i < C$ ，则 $\mu_i >0$ ，进而有 $\xi_i=0$ ,该样本恰在最大间隔边界上，若 $\alpha_i=C$ ，则有 $\mu_i=0$ ，此时若 $\xi \le 1$ 则该样本落在最大间隔内部，若 $\xi_i > 1$ 则样本被错误分类。

支持向量回归

给定训练样本 $D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)\},y_i\in \mathbb{R}$ 。希望学习得到回归模型，使得 $f (x)$ 与 $y$ 尽可能接近， $w, b$ 是待确定的模型参数。

支持向量回归（Support Vector Regression,SVR）假设我们容忍 $f (x)$ 与 $y$ 之间最多的有 $\epsilon$ 的偏差，即仅当 $f (x)$ 与 $y$ 之间的差别绝对值大于 $\epsilon$ 时才计算损失。

于是，SVR问题可形式化为 $\underset{w,b}{\min} \frac{1}{2}||w||^2 + C\sum_{i=1}^m \ell_{\epsilon}(f(\pmb{x}_i-y_i))$ 其中C为正则化常数， $\ell_{\epsilon}$ 是 $\epsilon$ 不敏感损失函数 $\ell_{\epsilon}(z) = \begin{cases} 0 & if |z|\le \epsilon \\ |z|-\epsilon & otherwise \end{cases}$ 引入松弛变量 $\xi_i$ 和 $\hat{\xi_i}$ $\underset{w,b,\xi_i,\hat{\xi_i}}{\min} \frac{1}{2} ||w||^2 + C\sum_{i=1}^m (\xi_i + \hat{\xi_i})$

$\begin{aligned} s.t.\quad & f(x_i) - y_i \le \epsilon + \xi_i \\ & y_i - f(x_i)\le \epsilon +\hat{\xi_i} \\ & \xi_i \ge 0,\hat{\xi_i}\ge 0, i=1,2\cdots m \end{aligned}$ 通过引入拉格朗日乘子 $\mu \ge 0,\hat{\mu _i}\ge 0, \alpha_i \ge 0,\hat{\alpha_i} \ge 0$ ,可以得到拉格朗日函数 $\begin{aligned} & L(w,b,\alpha,\hat{\alpha},\xi,\hat\xi,\mu,\hat\mu) \\ & = \frac{1}{2}||w||^2 + C\sum_{i=1}^m (\xi_i + \hat\xi_i)-\sum_{i=1}^m\mu_i\xi_i-\sum_{i=1}^m \hat\mu_i\hat\xi_i + \sum_{i=1}^m \alpha_i(f(x_i)-y_i-\epsilon-\xi_i) \\ &\quad + \sum_{i=1}^m \hat\alpha_i(y_i-f(x_i)-\epsilon-\hat\xi_i) \end{aligned}$ 可得到SVR的对偶问题 $\begin{aligned} \underset{\alpha,\hat\alpha}{\max} \quad & \sum_{i=1}^m y_i(\hat\alpha_i-\alpha_i)-\epsilon(\hat\alpha_i+\alpha) \\ & -\frac{1}{2} \sum_{i=1}^m\sum_{j=1}^m (\hat\alpha_i-\alpha_i)(\hat\alpha_j-\alpha_j)\pmb{x_i^Tx_j} \\ s.t. \quad & \sum_{i=1}^m(\hat\alpha_i-\alpha_i)=0 \\ & 0\le \hat\alpha_i,\alpha_i \le C \end{aligned}$ 需要满足的KKT条件 $\begin{cases} \alpha_i (f(\pmb{x_i})-y_i-\epsilon-\xi_i)=0\\ \hat\alpha_i(y_i-f(\pmb{x_i})-\epsilon-\hat\xi_i) =0\\ \alpha_i\hat\alpha_i=0,\xi_i\hat\xi_i=0\\ (C-\alpha_i)\xi_i=0\\ (C-\hat\alpha)\hat\xi_i=0 \end{cases}$ 可以看出，当且仅当 $f(\pmb{x_i})-y_i-\epsilon-\xi_i=0$ 时 $\alpha_i$ 能取非零值，当前仅当 $y_i-f(\pmb{x_i})-\epsilon-\hat\xi_i=0$ s时 $\hat\alpha_i$ 能够取非零值。

则SVR的解形如 $f(\pmb{x}) = \sum_{i=1}^m (\hat\alpha_i-\alpha_i)\pmb{x_i^Tx_i}+b$ 考虑特征映射形式，则形如 $\pmb{w} = \sum_{i=1}^m (\hat\alpha_i-\alpha_i)\phi(\pmb{x_i})$ 则SVR可以表示为 $f(\pmb{x}) = \sum_{i=1}^m (\hat\alpha_i-\alpha_i)\kappa(\pmb{x,x_i})+b$ 其中 $\kappa(\pmb{x,x_j})=\phi(\pmb{x_i})^T\phi(\pmb{x}_j)$ 为核函数

核方法

定理令 $\mathbb{H}$ 为核函数 $\kappa$ 对应的再生核希尔伯特空间， $||h||_{\mathbb{H}}$ 表示 $\mathbb{H}$ 空间中关于 $h$ 的范数，对于任意单调递增函数 $\Omega:[0,\infty]\rightarrow \mathbb{R}$ 和任意非负损失函数 $\ell:\mathbb{R}^m \rightarrow [0,\infty]$ ，优化问题 $\underset{h\in \mathbb{H}}{\min} = \Omega(||h||_{\mathbb{H}}) + \ell(h(x_1),h(x_2),\cdots,h(x_m))$ 的解总可写为： $h^{*}(\pmb{x}) =\sum_{i=1}^m \alpha_i\kappa(\pmb{x,x_i})$ 表示定义对损失函数没有限制，对正则化项 $\Omega$ 仅要求单调递增，甚至不要求 $\Omega$ 是凸函数，意味着对于一般的损失函数和正则化项，优化问题的最优解可以表示为核函数的线性组合。

人们发展出一系列的基于核函数的学习方法。通过核化（引入核函数）将线性学习器扩展为非线性学习器。

我们先假设可通过某种映射（ $\phi:\mathcal{X}\rightarrow \mathbb{F}$ ）将样本映射到一个特征空间 $\mathbb{F}$ ，然后在 $\mathbb{F}$ 中执行线性判别分析，以求得KLDA的学习目标 $\underset{\pmb{w}}{\max} J(\pmb{w}) = \frac{\pmb{w^TS_{b}^{\phi}w}}{\pmb{w^TS_{w}^bw}}$ 其中 $\pmb{S}_{b}^{\phi}$ 和 $\pmb{S}_{w}^{\phi}$ 分别为训练样本在特征空间 $\mathbb{F}$ 中的类间散度矩阵和类内散度矩阵。令 $X_i$ 表示第 $i\in \{0,1\}$ 类样本的集合，其样本数为 $m_i$ ，总样本数 $m=m_0+m_1$ ，第i类样本在特征空间 $\mathbb{F}$ 中的均衡为 $\mu_i^{\phi} = \frac{1}{m}\sum_{x\in X_i}\phi(x)$ 两个散度矩阵分别为 $\pmb{S}_b^{\phi} = \pmb{(\mu_1^{\phi}-\mu_o^{\phi})(\mu_1^{\phi}-\mu_o^{\phi})^T}$

$\pmb{S}_w^{\phi} = \sum_{i=0}^1 \sum_{x\in X_i} (\phi(x)-\mu_i^{\phi})(\phi(x)-\mu_i^{\phi})^T$

函数 $h(\pmb{x})$ 可写为 $h(\pmb{x}) = \sum_{i=1}^m \alpha_i\kappa(\pmb{x,x_i})$ 可以得到 $\pmb{w} = \sum_{i=1}^m \alpha_i \phi(\pmb{x_i})$ 令 $K\in \mathbb{R}^{m\times m}$ 为核函数 $\kappa$ 所对应的核矩阵， $(K)_{ij} = \kappa(x_i,x_j)$ 。令 $1_i\in\{1,0\}^{m\times 1}$ 为第i类样本的指示向量。 $\hat\mu_0=\frac{1}{m_0} \pmb{K1_0}\\ \hat\mu_1 = \frac{1}{m_1}\pmb{K1_1}\\ \pmb{M} = (\hat\mu_0-\hat\mu_1)(\hat\mu_0-\hat\mu_1)^T\\ N = KK^T-\sum_{i=0}^1 m_i\hat\mu_i\hat\mu_i^T$ 等价为 $\underset{\alpha}{\max} J(\alpha) = \frac{\alpha^TM\alpha}{\alpha^TN\alpha}$

最新回复(0)