【论文笔记】:Segmentation Is All You Need

mac2024-11-07  12

&Title:

Segmentation Is All You Need代码 None

&Summary

作者提出了 第一个无锚(anchor-free)和无NMS(NMS-free) 的目标检测模型,称为弱监督多模式注释分割(WSMA-Seg),该模型 利用分割模型实现了无需NMS的准确而鲁棒的目标检测 。在WSMA-Seg中,提出了多模式注释(目标轮廓注释、目标边界注释、目标相交区域边界注释),以使用弱监督边界框实现实例感知的分割。我们还开发了一种基于运行数据的跟踪算法来跟踪对象的轮廓。此外,我们提出了多尺度池化分割(MSP-Seg) 作为WSMA-Seg的基础分割模型,以实现更准确的分割并提高WSMA-Seg的检测精度。在多个数据集上的实验结果表明,提出的WSMA-Seg方法优于最新的检测器。

总结:用bounding box生成上面所说的三种注释(四边形 >> 内接椭圆),用这三种注释训练出一个分割模型,然后测试的时候,用分割模型输出实例感知分割图,在通过轮廓跟踪操作以生成目标的轮廓,然后通过创建目标的边界框作为其轮廓的外接四边形。

&Research Objective

使用分割的思想来解决在目标检测中极端环境下的问题。

anchor-free + NMS-free + seg

&Problem Statement

目前目标检测算法中有两个模块比较重要: region proposal networks (RPNs) 和 non-maximum suppression (NMS) ,虽然这两个模块解决目标检测中的一些问题,但是它们也引入了一些难以克服的问题。 如下图,RPN方法在以下三种极端环境下表现很差

Although they can generally achieve a good detection performance under normal circumstances, their recall in a scene with extreme cases is unacceptably low. This is mainly because bounding box annotations contain much environment noise information, and non-maximum suppression (NMS) is required to select target boxes.

挑战(问题):

RPN高度依赖Bounding box,但是对于一些极端的例子,人工标注的ground truth 含有很多噪音NMS很难(有时甚至是不可能)找到合适的阈值以适应极端情况下的非常复杂的情况。

摘自文章

边界框(Bounding Box)不应该存在 虽然 anchor 的存在减少了很多计算量,但是也带来了超参数增加、人为调参过拟合评测数据集、前后景目标类别不平衡等一系列令人头疼的问题。 让我们回到边界框的本质。所有的边界框其实都是一种无限制保证前景物体像素召回率的标注方式,它会尽可能贴着外轮廓,因此会导致背景像素大量进入框内。然而,真实世界的物体可以随意转动,不同的机位拍一个 3D 物体出现的结果可以大不相同,因此用框作为一个表征工具来把东西框起来,本身就不稳健。而且,框的标注本身也带有一定的随机性,毕竟要遵守标注规则把框标得非常好可能花的成本也会很高。非极大值抑制(NMS)不应该存在 NMS 是一项很神奇的工作,目标检测领域用 NMS 作为选框策略已经有大概几十年了,因为没有一项工作能超越它。然而如上所述,既然边界框本身并不稳健,选出的框再优秀也无济于事。更何况选出的框也不会格外优秀,因为真实世界里不可能有一个具体的阈值来控制所有的场景,例如遮挡问题。现实世界中的遮挡问题十分复杂,挡了一部分和挡了一大半完全不是同一种情况。既然如此,用一个单一的阈值怎么可能解决问题?事实上,在之前的工作中,动态调整 NMS 的 SoftNMS、动态调整 IoU 的 Cascade RCNN 方案都取得了很不错的结果,但是前者依然回避了「复杂遮挡」的复杂性,后者参数量激增,速度慢到难以想象。

&Method(s)

提出了一种弱监督的多模式注释分割(WSMA-Seg)方法,该方法使用分割模型来实现无NMS的准确而鲁棒的对象检测。 它包括两个阶段 训练阶段:

WSMA-Seg首先将弱监督的边界框注释转换为具有三个通道的像素级分段式蒙版,分别代表内部蒙版信息的内部,边界和边界。产生的注释称为多模式注释;然后,将多峰注释用作标签以训练基础的分割模型,以学习训练图像的相应多峰热图。

测试阶段:

首先将给定的测试图像发送到训练好的分割模型中以获得多模态热图。基于像素级逻辑运算将得到的三个热图转换为实例感知的分割图;最后,使用分割图进行轮廓跟踪操作以生成对象的轮廓,然后将对象的边界框创建为其轮廓的外接四边形。

WSMA-Seg的优点:

作为无NMS的解决方案,WSMA-Seg避免了所有与锚框和NMS相关的超参数; 因此,也避免了上述阈值选择问题。通过利用类似分段的多模式注释的拓扑结构可以减轻复杂的遮挡问题;多模式注释是像素级注释; 因此,他们可以更准确地描述物体并克服上述环境噪声问题。

WSMA-Seg的主要部分:(待完成)

Generating Multimodal Annotations

Multi-Scale Pooling Segmentation Object Detection Using Segmentation Results and Contour Tracing

&Evaluation

分别在三个数据集上做了实验:Rebar Head dataset、WIDER Face、MS COCO,以下是各个实验的对比结果

Rebar Head dataset WIDER Face MS COCO

&Conclusion

提出了一种新的图像中目标检测方法,称为 弱监督多模式注释分割(WSMA-Seg),该方法 无锚且无NMS。我们观察到 NMS是现有的深度学习方法中图像对象检测的瓶颈之一。在NMS上调整超参数的需求严重阻碍了高性能检测框架的可伸缩性。因此,为了实现WSMA-Seg,我们提出使用 多模式注释来实现基于弱监督边界框的实例感知分割,并开发了一种 基于运行数据的跟踪算法来跟踪对象的轮廓。此外,提出了一种 多尺度池化分割(MSP-Seg)模型作为WSMA-Seg的基础分段模型,以实现更准确的分段并提高WSMA-Seg的检测精度。

个人启发:

分割的思想做检测 最近已经看到好多篇用分割的思想或者方法来做检测,而且做出来的效果很好。有一个原因我认为是,分割比检测更细,拿一个更细的方法来解决粗的问题,肯定效果更好咯,举本论文的例子,分割的标注比检测的标注(bounding box)是不是背景信息更少了?这样不就降低模型学习的难度,同时增加预测边框的置信度等。所以往后可以多看些分割的论文,找找灵感了。将框转换为其他的三种标注注释,速度会不会就变得慢了呢???文章没有速度的消融实验。因为不是做分割的,也不知道提出的module如何,有没有可圈可点的地方?日后研究相关分割方向的算法再来补充。

&Notes

Contributions

我们提出了一种弱监督的多模式注释分割(WSMA-Seg)方法,以在不使用NMS的情况下实现准确而强大的对象检测,这是第一种无锚和无NMS的对象检测方法。我们提出了多模式注释,以使用弱监督边界框实现实例感知的分割; 我们还开发了一种基于运行数据的跟踪算法来跟踪对象的轮廓。我们提出了一种多尺度合并分段(MSP-Seg)模型,以实现更准确的分段并提高WSMA-Seg的检测准确性。我们对Rebar Head,WIDER Face和MS COCO数据集进行了广泛的实验研究; 结果表明,所提出的WSMA-Seg方法在所有测试数据集上均优于最新的检测器。

参考

解读目标检测新范式:Segmentations is All You Need
最新回复(0)