You Only Look One-level Feature 笔记

2024-05-25 492

文章目录[隐藏]

Scale-aware Automatic Augmentation for Object Detection

Scale-aware Automatic Augmentation for Object Detection

Y ukang Chen1*†, Yanwei Li1†, Tao Kong2, Lu Qi1, Ruihang Chu1∗, Lei Li2, Jiaya Jia1.3

1 The Chinese University of Hong Kong 2 ByteDance AI Lab 3 SmartMore

published on cvpr2021

问题提出

FPN

FPN主要有两个核心的收益：

一方面，FPN可以进行多尺度特征融合，它将多个尺度的特征图融合在一起获得更好的表示；

另一方面，它又是一种分治策略，依据目标的不同尺度在不同级别的特征图上检测目标。

MiMo-SiSo对比试验

作者在RetinaNet的基础上通过解耦多尺度特征融合和分治功能设计了实验。具体而言，将FPN视作一个多进多出（Multiple-in-Multiple-out，MiMo）编码器，它从骨干网络编码多尺度特征并且为解码器即检测head提供特征表示。作者对MiMo（多进多出）、单进多出（SiMo）、多进单出（MiSo）和单进单出（SiSo）编码器进行了对比实验

这些实验结果表明两个事实：

第一，C5特征图上其实就包含了检测各种尺度目标的足够的上下文信息，这就导致SiMo编码器可以获得相当不错的效果；

第二，多尺度特征融合带来的收益要远远小于分治策略带来的收益，因此多尺度特征融合在FPN不是最关键的功能。

MiMo-SiMo编码器分析

作者先对MiMo编码器代价进行了一个定量分析。基于RetinaNet，将检测任务的pipeline分为三个部分：backbone、encoder（编码器）、decoder（解码器）

其中C表示模型的编码器和解码器中使用的通道数

左边：FLOPs，相比于SiSo结构，MiMo结构给编码器和解码器带来了巨大的内存开销

右边：FPS，MiMo结构比SiSo慢了很多，分析这个低速来源于高分辨率特征图（C3）上的目标检测

方法

设计一个SiSo结构取代MiMo结构

但是将MiMo直接换为SiSo会引起巨大的性能下降。

作者对此进行了详细分析，

第一，与C5特征图感受野匹配的目标尺度范围是有限的，这阻碍了不同尺度目标的检测表现；

第二，由于单级特征图上稀疏anchor生成策略造成的正样本不均衡问题。

Limited Scale Range

SiSo结构中只会输出固定感受野的单级别的特征图，如(a)所示

C5级别的特征图只能覆盖一个受限的感受野，当目标的尺度和感受野不匹配时，检测效果就会很差

作者设计了如上图所示的SiSo结构，名为Dilated Encoder。

包含两个组件，分别是Projector和Residual Blocks。

Projector首先是1×1的卷积层来降低通道维数，然后一个3×3卷积层（消除上采样的混叠效应），这与FPN一致。

然后，叠加连续4个卷积核膨胀率不同的残差块(第一个1x1卷积通道减少4倍，然后一个3x3膨胀卷积用于增大感受野，最后的1x1卷积恢复通道维度)，生成具有多个感受野的输出特征，覆盖所有对象的尺度（c）。

Imbalance Problem on Positive Anchors

在RetinaNet中，如果一个anchor和GT框之间的最大IoU大于一个给定的阈值，这个anchor就是一个正样本

这个策略称为Max-IoU匹配

当采用SiSo编码器时，anchor的数量比MiMo编码器中的anchor的数量减少了很多，从100k减少到5k，导致anchor是非常稀疏的。

对稀疏的anchor采用Max-IoU匹配会引起一个问题，如下图所示，大GT框比小GT框会产生更多的正anchor，从而造成了正anchor的不平衡问题。

Top1：只取IoU最大的框

ATSS：自适应采样正锚点

Max-IoU：RetinaNet使用的方法

因此，作者设计了一个均衡匹配（Uniform Matching）策略，即对每个GT框而言，只采用最接近的k个anchor作为正anchor，这就能如上图一样保证每个GT框不论尺寸大小都有相同数目的正anchor。

遍历每个 gt bbox，然后选择 topk 个距离最近的 anchor 作为其匹配的正样本
遍历每个 gt bbox，然后选择 topk 个距离最近的预测框作为补充的匹配正样本
计算 gt bbox 和预测框的 iou，在所有负样本点中，将 iou 高于 0.75 的负样本强制认为是忽略样本
计算 gt bbox 和 anchor 的 iou，在所有正样本点中，将 iou 低于 0.15 的正样本强制认为是忽略样本

YOLOF

后缀为R101或X101:使用ResNet-101或RetNeXt-101-64×4d
使用多尺度培训和测试技术(†表示多尺度培训，‡意味着多尺度测试)
数据集：COCO2017
FPS是根据总推断纯计算时间在2080Ti上以批大小1计算
Uniform Matching 作用非常大，说明该模块其实发挥了 FPN 的分治作用
Dilated Encoder 配合 Uniform Matching 可以提供额外的变感受野功能，有助于多尺度物体预测

版权声明：本文为CSDN博主「bieliwuguiqi」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/bieliwuguiqi/article/details/121487565

标签：cvpr2021 · 人工智能 · 深度学习 · 计算机视觉