EfficientDet: Scalable and Efficient Object Detection

EfficientDet

1.摘要

  1. 首先,我们提出了一种加权双向特征金字塔网络(BiFPN),它允许简单快速的进行多尺度特征融合。
  2. 其次,我们提出了一种复合缩放方法,该方法可同时对所有主干网络,特征网络和box/class预测网络的分辨率,深度和宽度进行均匀缩放。

基于以上两点优化提出了EfficientDet。EfficientDet=EfficientNet+BiFPN+compound scaling

2.介绍

  1. 两个主要的挑战:
    1. 有效的多尺度特征融合。

       FPN被广泛运用于多尺度特征融合,但以前的这些都是进行简单的相加。通常输入分辨率不一样,对输出特征的贡献也不一样。
       为了处理这个问题,我们提出了⼀种简单⽽⾼效的加权双向特征⾦字塔⽹络(BiFPN),该⽹络引⼊可学习的权值来学习不同输⼊特征的重要性,同时反复应⽤⾃顶向下和⾃底向上的多尺度特征融合
      
    2. model scaling

       虽然以往的研究主要依赖于更⼤的骨⼲⽹络或更⼤的输⼊图像尺⼨来获得更⾼的精度。
       但我们发现,在兼顾精度和效率的情况下,缩放特征⽹络和分类预测⽹络、回归预测网络也是⾄关重要的。我们提出了⼀种针对所有骨⼲⽹络、特征⽹络、回归/分类预测⽹络的分辨率/深度/宽度的复合缩放方法。
      

3. BiFPN

在本⽂中,我们主要遵循one stage的设计,我们证明了通过优化的⽹络结构可以获得更好的效率和更⾼的精度。

3.1 Multi-Scale Feature Representations

在这里插入图片描述
在这里插入图片描述

	resize通常是upsampling or downsampling

3.2 Cross-Scale Connections

本⽂提出了跨尺度连接的⼏个优化⽅法:

  1. ⾸先,我们删除了那些只有⼀条输⼊边的节点;我们的直觉很简单:如果⼀个节点只有⼀条输⼊边⽽没有进⾏特征融合,那么它对融合不同特征的特征网络的贡献就较⼩。这就形成了⼀个简化的双向⽹络;
  2. 其次,在原输⼊节点到输出节点在同⼀⽔平上增加⼀条边缘,以在不增加成本的情况下融合更多的特征;
  3. 第三,不同于PANet只有⼀条⾃顶向下和⼀条⾃底向上路径,我们将每⼀条双向(⾃顶向下和⾃底向上)路径视为⼀个特征⽹络层,并在同⼀层重复多次,以实现更⾼级的特征融合

新的特征网络命名为双向特征金字塔网络 bidirectional feature pyramid network (BiFPN)。

3.3 Weighted Feature Fusion

融合具有不同分辨率的特征时,一种常见的方法是首先将它们resize为相同分辨率的大小,然后将它们相加。Pyramid attention network引入了一种 global self-attention upsampling 来恢复像素的定位。

不同分辨率的输入特征对输出结果影响不一样。因此,我们提出给每个输出结果增加一个权重表示输入的重要性。
由于标量权值是无界限的,会导致训练不稳定。因此要进行权值归一化来限定权值范围。
在这里插入图片描述
softmax归一化到[0,1],但会导致GPU的减速

通过在

W

i

W_i

Wi后应用Relu来保证

W

i

>

=

0

W_i>=0

Wi>=0,设置

ϵ

=

0.0001

\epsilon=0.0001

ϵ=0.0001避免不可收敛。归一化后的值同样在0~1之间,但是更有效。

我们的最终BiFPN集成了双向交叉连接快速归一化
在这里插入图片描述
为了提高效率,用了深度可分离卷积进行特征融合,在卷积之后运用了归一化和激活函数。

4. EfficientDet

4.1 EfficientDet Architecture

我们使⽤imagenet预训练的efficientnets作为Backbone。我们提出的BiFPN作为特征⽹络,从主干网中选取3-7级特征{P3, P4, P5, P6, P7},反复采⽤⾃顶向下和⾃底向上的双向特征融合。将这些融合后的特征分别输⼊分类和回归⽹络,分别⽣成object class 和bounding box预测,class 和box network 权值是共享的。
在这里插入图片描述

4.2 Compound Scaling

最近的研究显示,通过***联合扩展⽹络宽度、深度和输⼊分辨率的所有维度,在图像分类⽅⾯表现出
了显著的性能***。受这些⼯作的启发[10,39],我们提出了⼀种新的复合缩放⽅法⽤于⽬标检测,该⽅法使⽤⼀个简单的复合系数φ来联合缩放主⼲、BiFPN、class/box⽹络和分辨率的所有维度。⽬标检测器⽐图像分类模型具有更多的尺度,因此对所有维度进⾏⽹格搜索是⾮常昂贵的。因此,我们使⽤了⼀个基于启发式的缩放⽅法。

4.3 Backbone network

我们可以重⽤effecentnet - B0到B6[39]的相同的宽度/深度缩放系数,这样我们就可以很容易地重⽤它们的
imagenet预训练的检查点

4.4 BiFPN network

形式上,BiFPN的宽度和深度按如下公式换算:
在这里插入图片描述

4.5 Box/class prediction network

我们将它们的宽度固定为始终与BiFPN相同(即Wpred = Wbifpn),但使⽤以下公式线性增加深度(#layers):
在这里插入图片描述

4.6 Input image resolution

在这里插入图片描述

2

7

=

128

2^7=128

27=128

在这里插入图片描述
在这里插入图片描述

5.实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6. 消融实验

6.1 Disentangling Backbone and BiFPN

在这里插入图片描述

6.2 BiFPN Cross-Scale Connections

在这里插入图片描述

通过附加的加权特征融合,我们的BiFPN在更少的参数和FLOPs的情况下获得了最好的精度。

6.3 Softmax vs Fast Normalized Fusion

在这里插入图片描述

6.4 Compound Scaling(复合缩放)

在这里插入图片描述


Scale Jittering:数据增强方法。先调整图像的大小(大小任意),然后将其裁剪为固定大小。

版权声明:本文为CSDN博主「chairon」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/chairon/article/details/122482108

chairon

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

YOLOv5论文笔记

1、网络结构图 (1)输入端 :Mosaic数据增强、自适应锚框计算、自适应图片缩放 (2)Backbone :Focus结构,CSP结构 &#x