Scale-aware Automatic Augmentation for Object Detection
Y ukang Chen1*†, Yanwei Li1†, Tao Kong2, Lu Qi1, Ruihang Chu1∗, Lei Li2, Jiaya Jia1.3
1 The Chinese University of Hong Kong 2 ByteDance AI Lab 3 SmartMore
published on cvpr2021
问题提出
FPN
FPN主要有两个核心的收益:
一方面,FPN可以进行多尺度特征融合,它将多个尺度的特征图融合在一起获得更好的表示;
另一方面,它又是一种分治策略,依据目标的不同尺度在不同级别的特征图上检测目标。
MiMo-SiSo对比试验
作者在RetinaNet的基础上通过解耦多尺度特征融合和分治功能设计了实验。具体而言,将FPN视作一个多进多出(Multiple-in-Multiple-out,MiMo)编码器,它从骨干网络编码多尺度特征并且为解码器即检测head提供特征表示。作者对MiMo(多进多出)、单进多出(SiMo)、多进单出(MiSo)和单进单出(SiSo)编码器进行了对比实验
这些实验结果表明两个事实:
第一,C5特征图上其实就包含了检测各种尺度目标的足够的上下文信息,这就导致SiMo编码器可以获得相当不错的效果;
第二,多尺度特征融合带来的收益要远远小于分治策略带来的收益,因此多尺度特征融合在FPN不是最关键的功能。
MiMo-SiMo编码器分析
作者先对MiMo编码器代价进行了一个定量分析。基于RetinaNet,将检测任务的pipeline分为三个部分:backbone、encoder(编码器)、decoder(解码器)
其中C表示模型的编码器和解码器中使用的通道数
左边:FLOPs,相比于SiSo结构,MiMo结构给编码器和解码器带来了巨大的内存开销
右边:FPS,MiMo结构比SiSo慢了很多,分析这个低速来源于高分辨率特征图(C3)上的目标检测
方法
设计一个SiSo结构取代MiMo结构
但是将MiMo直接换为SiSo会引起巨大的性能下降。
作者对此进行了详细分析,
第一,与C5特征图感受野匹配的目标尺度范围是有限的,这阻碍了不同尺度目标的检测表现;
第二,由于单级特征图上稀疏anchor生成策略造成的正样本不均衡问题。
Limited Scale Range
SiSo结构中只会输出固定感受野的单级别的特征图,如(a)所示
C5级别的特征图只能覆盖一个受限的感受野,当目标的尺度和感受野不匹配时,检测效果就会很差
作者设计了如上图所示的SiSo结构,名为Dilated Encoder。
包含两个组件,分别是Projector和Residual Blocks。
Projector首先是1×1的卷积层来降低通道维数,然后一个3×3卷积层(消除上采样的混叠效应),这与FPN一致。
然后,叠加连续4个卷积核膨胀率不同的残差块(第一个1x1卷积通道减少4倍,然后一个3x3膨胀卷积用于增大感受野,最后的1x1卷积恢复通道维度),生成具有多个感受野的输出特征,覆盖所有对象的尺度(c)。
Imbalance Problem on Positive Anchors
在RetinaNet中,如果一个anchor和GT框之间的最大IoU大于一个给定的阈值,这个anchor就是一个正样本
这个策略称为Max-IoU匹配
当采用SiSo编码器时,anchor的数量比MiMo编码器中的anchor的数量减少了很多,从100k减少到5k,导致anchor是非常稀疏的。
对稀疏的anchor采用Max-IoU匹配会引起一个问题,如下图所示,大GT框比小GT框会产生更多的正anchor,从而造成了正anchor的不平衡问题。
Top1:只取IoU最大的框
ATSS:自适应采样正锚点
Max-IoU:RetinaNet使用的方法
因此,作者设计了一个均衡匹配(Uniform Matching)策略,即对每个GT框而言,只采用最接近的k个anchor作为正anchor,这就能如上图一样保证每个GT框不论尺寸大小都有相同数目的正anchor。
-
遍历每个 gt bbox,然后选择 topk 个距离最近的 anchor 作为其匹配的正样本
-
遍历每个 gt bbox,然后选择 topk 个距离最近的预测框作为补充的匹配正样本
-
计算 gt bbox 和预测框的 iou,在所有负样本点中,将 iou 高于 0.75 的负样本强制认为是忽略样本
-
计算 gt bbox 和 anchor 的 iou,在所有正样本点中,将 iou 低于 0.15 的正样本强制认为是忽略样本
YOLOF
-
后缀为R101或X101:使用ResNet-101或RetNeXt-101-64×4d
-
使用多尺度培训和测试技术(†表示多尺度培训,‡意味着多尺度测试)
-
数据集:COCO2017
-
FPS是根据总推断纯计算时间在2080Ti上以批大小1计算
-
Uniform Matching 作用非常大,说明该模块其实发挥了 FPN 的分治作用
-
Dilated Encoder 配合 Uniform Matching 可以提供额外的变感受野功能,有助于多尺度物体预测
版权声明:本文为CSDN博主「bieliwuguiqi」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/bieliwuguiqi/article/details/121487565
暂无评论