BBAM: Bounding Box Attribution Map for Weakly Supervised Semantic and Instance Segmentation

文章目录[隐藏]

本文是对2021年CVPR论文弱监督BBAM进行总结,有一些自己的理解

原文链接:https://arxiv.org/abs/2103.08907icon-default.png?t=LA92https://arxiv.org/abs/2103.08907

 

目标定位(object localization)

网络带有两个输出分支。一个分支
用于做图像分类,即全连接+softmax判断目标类别,和单纯图像分类区别在于这里还另外需要一个“背景”类。另一个分支
用于判断目标位置,即完成回归任务输出四个数字标记包围盒位置(例如中心点横纵坐标和包围盒长宽),该分支输出结果只有在分类分支判断不为“背景”时才使用。
区域建议网络(RPN)将一个图像(任意大小)作为输入,输出矩形目标建议框的集合,每个框有一个objectness得分。(本文有k个候选)
边框属性映射BBAM:
目标检测是图像识别中最重要的步骤之一。随着深度学习的进步,通过使用大量的像素级注释训练数据,大大提高了语义和实例分割的性能。
problems:
  1. 但是由于使用像素级掩码进行注释需要大量的工作。也虽然类标签是最容易获得,但是类标签在分离同一类的不同对象方面没有任何帮助。
  2. 很多研究人员,在边界框范围内使用掩码生成器,找到类别不可知的对象掩码,但是这些mask生成器对图像的低级信息进行操作,会限制生成mask的质量。
所以论文提出了一种像素级的方法,(使用被训练过的目标检测器
在边界框内定位目标对象。)引入一个边界框属性映射(BBAM)提供了一个指示图像的最小区域,足以使一个对象检测器产生和原来的图像几乎相同的结果。
BBAM识别 使用已经被训练好的目标检测器预测的每个边界框中目标所占据的区域。
由于该定位是在像素级进行的( 像素
精度
是图像
分割的最简单指标
),因此可以作为语义和实例分割的弱监督学习的伪ground truth。
贡献:
1.
提出了一个边界框属性映射(BBAM),它可以利用目标检测器学习到的丰富语义产生伪GT,用于训练语义分割和实例分割网络。
2. 论文提出的
技术显著优于之前的弱监督语义和实例分割的最先进方法。
3.从不同的角度分析我们的方法,为BBAM的属性提供了更深入的见解。
相关工作:
    基于像素级注释的全监督的语义和实例分割可靠性高,但是手工标注过程繁琐。这种要求可以通过基于不精确但容易获得的注释的弱监督方法来克服,如类标签和边界框的弱监督方法。
     
使用类标签学习:类激活映射(CAM)[70]是一种被广泛采用的从类标签获取本地化映射的技术。然而,CAM只识别对象的最具鉴别性的区域,大多数使用类标签的现有方法主要是,对CAM激活的目标对象的区域进行扩展。
但从类标签中获得的信息仍然有限。
类标签在语义分割方面取得了显著的成就,但在实例分割中,类标签本质上是没有帮助的,因为实例分割是
需要分离同一类的不同对象
    
使用边界框学习:边界框可以提供图像中单个物体的位置信息,现在方法大部分使用bbox框出的范围作为搜索的空间,对对象掩码进行低级搜索。他们使用现成的掩码建议方法(如MCG)在一个bbox中创建伪mask。也就是通过指定边界框中的可能属于该对象的像素的比例进行指导 等方法,但是这些方法
大部分是基于图像的低级信息,忽略了边界框相关的语义。
    视觉显著性方法:
3.1 对象探测器的操作
    计算分类的概率和偏移量
    分类头:计算类C的概率pc,将可能性最大的作为建议框。
    边界框回归头,在分类的基础上计算4个偏移量,调整噪声后获得最终定位。
3.2用于在边界框中定位对象的BBAM
根据原始图像I计算出建议框的框偏移
t
k
=
f
box
(
I, o
k
)和框类别概率
p
k
=
f
cls
(
I, o
k
)
O为一系列建议的对象。
mask 根据扰动函数可以计算出图像像素的子集。Φ(I,M) =I◦ M+µ◦(1−M)
M为最小掩码,减少到达探测器的不必要的信息量。扰动单元是由M的单个元素扰动的图像像素块。
捕获图像的子集,生成几乎与原始图像相同的预测,伪GT。
对M进行
梯度下降来优化以下函数,得到最佳掩码M∗。
其中1box和1cls是值为0或1的逻辑变量,以控制使用哪个头进行定位 (所有O)
t
c
=
f
box
(
I, o
)
and
p
c
=
f
cls
(
I, o
)是对原始图像的预测。
显示了一个扰动单元的大小,在RoI池之后,可能无法匹配目标对象的大小:扰动对于小对象来说太粗,而对于大对象来说则太细。
3,3 生成伪GT
首先训练 
 创建掩码
    对单个对象的区域建议有多个bbam,从这些建议的bbam中获得了伪标签,论文从多个建议的BBAMs中构建伪标签。对每个GT,通过随机抖动每个框的坐标,会生成一组区域建议O。这些建议被发送到fcls和fbox。如果fcls正确地预测了地面真实类,并且与fbox的预测框相关联的交集(IoU)值大于0.8,那么该建议将被添加到positive的o中,选取O⊂O+的(即筛选更合格的o进行对扰动函数的计算)。
1box和1cls都被设置为1,因为fbox和fcls的BBAM提供了互补的定位结果,由于fcls和fbox
会出现不准确的判断,所以可能有目标对象存在BBAM中我们却不知道。所以通过CRFs进行细化BBAM,最后,根据每个BBAM中值大于阈值θ的
像素
,来创建
伪实例级
的GT掩码。我们把这样的掩码表示为T。但是每个BBAM中对应于前景的像素的比例将会有所不同,因此使用固定的θ可能不合适。因此,论文引入了两个阈值θfg和θbg:值高于θfg的像素被认为是前景的一部分,而归属值低于θbg的像素被认为是背景的一部分。
改进MCG建议:是一种无监督的掩码建议生成器,常用于弱监督的实例分割。使用MCG生成的掩码建议来细化掩码T。首先选择Iou最高的掩码建议,但是,该建议可能只会部分地覆盖目标对象。所以,把完全包含在T内的其他掩码建议也
考虑了进去。也就是说,给了MCG的建议集
,细化后的掩码Tr如下:
( U联合并集。实际上就是所有满足条件的集合的并集)
3,4 训练分割网络
    解释用于训练语义和实例分割网络的过程
   
实例分割:使用了Mask R-CNN,在Imagenet上进行预训练,对训练过程中被忽略的像素进行伪标记。(
在标记数据上训练模型,然后使用训练后的模型预测未标记数据上的标签,从而创建伪标签。此外,将标记数据和新伪标记数据合并到用于培训数据的新数据集中。)随着训练进行,更多被忽略的像素渐渐都参与到损失计算中。
   
语义分割:使用DeepLab-v2,在ImageNet数据集上进行了预训练,将之前生成的伪GT
从实例级提升为类级,就可以很容易地适合于语义分割。损失计算过程中,被评估为两个或多个类的像素将被忽略。
4.实验
4.1实验设置
    数据集和评估指标:用PASCAL VOC and the MS COCO数据集 评估mIou,不同Iou阈值τ范围下的平均精度(APτ)
    复现:使用了更快的R-CNN和掩码R-CNN的PyTorch实现。对于语义分割,使用了DeepLab-v2-ResNet101的PyTorch实现。
4.2 弱监督实例分割
   
使用
PASCAL VOC的结果:比较了论文提出的方法和其他最近使用图像及标签或边界框的弱监督实例分割方法的性能。论文的方法明显优于这些方法。具体来说,我们的方法的AP50和AP70值都比以前使用边界框注释[3]的性能最好的方法高出6.0%。我们包括了两种完全监督方法的结果:MNC和MaskR-CNN。完全监督的MaskR-CNN的性能可以看作是我们方法可实现性能的上界。在AP50和ABO方面,我们的BBAM实现了完全监督的MaskR-CNN性能的92.2%和95.7%。
   
使用MS COCO 2017的结果:这个比上一个数据集的每个图像中包含更多的对象,对象实例的大小也更多样。对MSCOCO进行各种监督的实例分割方法的性能进行了比较。可以看到也好了很多。
4.3 弱监督语义分割
    比较了对pascal VOC2012数据集的验证和测试图像,进行语义分割的方法所实现的mIoU值。论文提出的方法优于所有使用图像级标签或边界框进行监督的方法。
4.4 消融实验
   
MCG建议:MCG建议的掩码如果提高论文在两个数据集上的实例分割性能的。MCG建议的掩码对中、大型对象的掩码很有效。但是为了明显观察到不同部分的贡献,这里没使用MCG建议,可以和其他人的结果有一个很好的对比,如前两个表。
   
边界框回归头和分类头:BBAM可以通过控制公式3中的逻辑变量1box和1cls,为对象检测器的每个head提供一个单独的属性图。
???
图4显示了从每个head 获得的BBAM,对弱监督语义分割和实例分割性能的影响。使用从box头(1box=1和1cls=0)或cls头(1box=0和1cls=1)获得的BBAM显示出良好的性能,但当两个头一起使用时,可以达到最好的性能。两个一起使用时,可以看到有最好的性能(互补性质)。
      
参数敏感性分析
:对不同阈值以及是否使用种子生长技术,忽略一些像素可以提高AP值,种子生长技术也可以提高了性能。控制BBAM稀疏性的λ,其对弱监督语义分割和实例分割的性能的影响。表6显示,论文的方法在λ不同的时候,也显示了没过多差别的语义和实例分割性能。(我们的方法在λ的广泛值范围上,在语义和实例分割上显示出相似的性能。)(或直接说结果)
      
 
    
5.对BBAM的详细分析:
       两个头的互补分析:为了确定对象的哪个部分与两个头的相关性较高,研究了高值像素在两个BBAM中的分布。回归头的高值主要发生在物体的边界附近,而cls头的高值主要发生在物体的内部。
c图表示的结果是两个头互相之间的关系,一个的优化会对另一个造成损失增加。
        对象检测中的标签噪声:结论是,无论噪声是由扩展的还是收缩的边界框标签组成,论文提出的方法比前人的具有更好的鲁棒性。
        适应性步长的有效性
s(a):之前提到过论文使用了自适应的步长处理ROI池化发生的问题。如图所示:小的固定步幅(s=24)对于大对象是无效的,大的

(s=48)对于小对象也是无效的。相比之下,自适应步幅(a)可以处理不同大小的物体。
6.结论:
介绍了一个边界框属性图(BBAM),它通过寻找保持目标检测器预测的最小区域,为每个目标对象在其边界框中提供像素级定位。
实验表明,BBAM在PASCAL VOC和MS COCO基准测试中,在弱监督语义和实例分割方面达到了最先进的性能。
还从不同的角度分析了BBAM。预计BBAMs将成为未来使用边界框进行弱监督语义和实例分割的主要工作。

版权声明:本文为CSDN博主「啊文!」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_41274283/article/details/121699949

啊文!

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

Cross Stage Partial Network(CSPNet)

Cross Stage Partial Network(CSPNet) 一. 论文简介 降低计算量,同时保持或提升精度 主要做的贡献如下(可能之前有人已提出): 提出一种思想,特征融合方式(降低计算量的