【论文学习笔记005】SSD

mac2026-04-06 18

文章目录

1.论文信息2. 论文创新点3.欲解决的问题4.解决方案4.1 模型结构4.1.1 采用多尺度特征图用于检测4.1.2 采用卷积进行检测4.1.3 设置先验框 4.2 模型训练4.2.1 先验框匹配4.2.2 损失函数4.2.3 选择先验框的尺度与高宽比4.2.4 负样本抽样4.2.5 数据增强 5.几点思考5.1 为什么要设置不同高宽比的先验框 6.论文结果7.待解决的问题

1.论文信息

题目SSD: Single Shot MultiBox Detector作者Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed4, Cheng-Yang Fu1, Alexander C. Berg年份2016期刊ECCV论文地址https://arxiv.org/pdf/1512.02325.pdf项目地址https://github.com/weiliu89/caffe/tree/ssd

2. 论文创新点

在多个特征图上直接预测default box(Faster RCNN中的anchor)的类别得分、偏移量采用了多尺度多高宽比的特征图进行预测

3.欲解决的问题

实现Faster RCNN的精度与YOLO速度的结合

4.解决方案

4.1 模型结构

网络结构如上图所示。采用VGG-16作为基础模型，在此基础上增加了卷积层得到更多的特征图进行预测。输入图片大小为300x300(文中还有512x512)，将VGG16的全连接层fc6和fc7转换成3×3卷积层 conv6和1×1卷积层conv7，同时将池化层pool5由原来的stride=2的2×2变成stride=1的3×3

4.1.1 采用多尺度特征图用于检测

在基础模型后增加了一些卷积层，这些卷积层的大小逐渐减小，用来进行多尺度的检测。比较大的特征图用来检测小目标，比较小的特征图用来检测大目标如上图所示，8x8的特征图可以划分更多的单元，但是其每个单元的先验框尺度比较小，而4x4的特征图每个单元的先验框尺度比较大。

4.1.2 采用卷积进行检测

每个新添加的层采用一系列的卷积核进行预测对于一个mxnxp的特征图，采用3x3xp的卷积核进行预测，产生类别得分或者相对于先验框的偏移量

4.1.3 设置先验框

每个单元设置不同尺度不同长宽比的先验框，预测框是以这些先验框为基准的。每个单元预测k个box，每个box预测C个类别得分以及相对于先验框的4个偏移量；因此需要(C+4)k个预测器，在mxn的特征图上产生(C+4)kmn个预测值。

4.2 模型训练

4.2.1 先验框匹配

首先，将每个Ground Truth与具有最大jaccard overlap(即IOU)的Default Box进行匹配，这样保证每个Ground Truth都有先验框匹配；与Ground Truth匹配的先验框为正样本，反之为负样本其次，为了防止正负样本不平衡，剩余先验框与Ground Truth的jaccard overlap大于0.5的也可进行匹配，这样一个Ground Truth可以与多个先验框匹配

4.2.2 损失函数

总损失函数定义为位置误差与置信度误差的加权和：

g)=\frac{1}{N}\left(L_{\operatorname{con} f}(x, c)+\alpha L_{\operatorname{loc}}(x, l, g)\right)

其中，N是先验框正样本的个数；

x_{i j}^{p} \in\{1,0\}

是一个指示函数，当

x_{i j}^{p}=1

时，第i个先验框与第j个Ground Truth匹配，且Ground Truth的类别为p；c为类别置信度预测值；l为预测框位置参数；g为Ground Truth的位置参数。对于位置误差，采用Smooth L1 loss：

\begin{aligned} L_{l o c}(x, l, g)=& \sum_{i \in P o s} \sum_{m \in\{c x, c y, w, h\}} x_{i j}^{k} \operatorname{smooth}_{\mathrm{L} 1}\left(l_{i}^{m}-\hat{g}_{j}^{m}\right) \\ \hat{g}_{j}^{c x}=\left(g_{j}^{c x}-d_{i}^{c x}\right) / d_{i}^{w} & \hat{g}_{j}^{c y}=\left(g_{j}^{c y}-d_{i}^{c y}\right) / d_{i}^{h} \\ \hat{g}_{j}^{w}=\log \left(\frac{g_{j}^{w}}{d_{i}^{w}}\right) & \hat{g}_{j}^{h}=\log \left(\frac{g_{j}^{h}}{d_{i}^{h}}\right) \end{aligned}

\operatorname{smooth}_{L_{1}}(x)=\left\{\begin{array}{ll}{0.5 x^{2}} & {\text { if }|x|<1} \\ {|x|-0.5} & {\text { otherwise }}\end{array}\right.

其中，

\hat{g}

为g的编码值；d为先验框的位置参数对于置信度误差，采用Softmax loss：

L_{c o n f}(x, c)=-\sum_{i \in P o s}^{N} x_{i j}^{p} \log \left(\hat{c}_{i}^{p}\right)-\sum_{i \in N e g} \log \left(\hat{c}_{i}^{0}\right) \quad \text { where } \quad \hat{c}_{i}^{p}=\frac{\exp \left(c_{i}^{p}\right)}{\sum_{p} \exp \left(c_{i}^{p}\right)}

其中，权重系数

\alpha

通过交叉验证设置为1

4.2.3 选择先验框的尺度与高宽比

先验框不需要和每一层的感受野相对应，特定的特征图负责处理图像中特定尺度的物体在每个特征图上，先验框的尺度计算公式如下：

s_{k}=s_{\min }+\frac{s_{\max }-s_{\min }}{m-1}(k-1), \quad k \in[1, m]

其中，最小尺度

\mathcal{S}_{\min }

为0.2；最大尺度

\mathcal{S}_{\max }

为0.9；m为特征图的个数(本文为5)对于高宽比，一般选取

a_{r} \in\left\{1,2,3, \frac{1}{2}, \frac{1}{3}\right\}

每个先验框，宽度、高度、中心点计算公式如下：

\begin{aligned} w_{k}^{a} &=s_{k} \sqrt{a_{r}} \\ h_{k}^{a} &=s_{k} / \sqrt{a_{r}} \\\left(\frac{i+0.5}{1 f_{k}},\right.&\left.\frac{j+0.5}{\left|f_{k}\right|}\right) \end{aligned}

对于高宽比为1，额外增加一个先验框，其尺度为

s_{k}^{\prime}=\sqrt{s_{k} s_{k+1}}

4.2.4 负样本抽样

经过匹配后，很多先验框是负样本，这将导致正负样本不均衡，训练难以收敛抽样时按照置信度误差进行降序排列，选取误差的较大的top-k作为训练的负样本，以保证正负样本比例接近1:3

4.2.5 数据增强

采用了两中数据增强方式：放大操作，缩小操作对于放大操作，随机采样，patch与任意一个目标的IOU为0.1、0.3、0.5、0.7、0.9，每个patch的大小为原图大小的[0.1,1]，高宽比在1/2到2之间，能够生成更多的尺度较大的目标对于缩小操作，首先创建16倍原图大小的画布，然后将原图放置其中，然后随机采样，能够生成更多尺度较小的目标

5.几点思考

5.1 为什么要设置不同高宽比的先验框

先验框其实就是实际训练样本，如果只设置了高宽比为1的先验框，最多只有1个先验框匹配到，如果设置更多高宽比的先验框，将会有更多的先验框匹配到，也就相当于有更多的训练样本参与训练，模型训练效果越好，检测精度越高。实验结果表明，增加高宽比为1/2，2，1/3，3的先验框，mAP从71.6%提高到了74.3%。

6.论文结果

PASCAL VOC2007 PASCAL VOC2012 COCO

7.待解决的问题

SSD对小目标的检测效果一般，小目标在高层没有足够的信息。先验框没有对齐感受野，通常几个像素的中心位置偏移，对大目标来说IOU变化不会很大，但对小目标IOU变化剧烈，尤其感受野不够大的时候，先验框很可能偏移出感受野区域，影响性能。

最新回复(0)