Faster R-CNN笔记

mac2026-05-07 12

一、Faster-RCNN简介

(1)输入测试图像；

(2)将整张图片输入CNN，进行特征提取；

(3)用RPN生成建议窗口(proposals)，每张图片保留约300个建议窗口；

(4)把建议窗口映射到CNN的最后一层卷积feature map上；

(5)通过RoI pooling层使每个RoI生成固定尺寸的feature map；

(6)利用Softmax Loss(探测分类概率) 和Smooth L1 Loss(探测边框回归)对分类概率和边框回归(Bounding box regression)联合训练.

相比FAST-RCNN，主要两处不同

(1)使用RPN(Region Proposal Network)代替原来的Selective Search方法产生建议窗口；

(2)产生建议窗口的CNN和目标检测的CNN共享

改进

快速产生建议框：FASTER-RCNN创造性地采用卷积网络自行产生建议框，并且和目标检测网络共享卷积网络，使得建议框数目从原有的约2000个减少为300个，且建议框的质量也有本质的提高.

RPN简介放到整体网络中如下，对于共享的Feature Map，RPN使用3*3的滑窗，每个滑动窗口位置生成9个候选窗口（不同尺度、不同宽高），对应36个坐标、18个分类。

训练过程中，

1）丢弃跨越边界的anchor；

2）与样本重叠区域大于0.7的anchor标记为前景，重叠区域小于0.3的标定为背景；

总结一下：

• 在feature map上滑动窗口　　• 建一个神经网络用于物体分类+框位置的回归　　• 滑动窗口的位置提供了物体的大体位置信息　　• 框的回归提供了框更精确的位置

这里的分类只需要区分候选框内特征为前景或者背景，这里的边框回归也是为了之后获得更精确的目标位置。损失函数故整个网络包含四个损失函数; 　　• RPN calssification(anchor good.bad)，判断anchor前景背景类别　　• RPN regression(anchor->propoasal)，计算anchor和gt box的偏差，利用mask仅计算前景anchor 　　• Fast R-CNN classification(over classes)，判断proposal分类，包含类别数C+背景　　• Fast R-CNN regression(proposal ->box)，计算proposal和gt box的偏差，利用mask仅计算类别的proposal

注意到前两个损失函数目标是修正anchor，后两个损失函数目标是修正proposal，实际上产生了众多anchors后，会进行筛选（非极大值抑制并按照前景得分排序等等），选出特定比例的前景背景anchors作为proposal进行后面的运算。

最新回复(0)