文章目录[隐藏]
EfficientDet
1.摘要
- 首先,我们提出了一种加权双向特征金字塔网络(BiFPN),它允许简单快速的进行多尺度特征融合。
- 其次,我们提出了一种复合缩放方法,该方法可同时对所有主干网络,特征网络和box/class预测网络的分辨率,深度和宽度进行均匀缩放。
基于以上两点优化提出了EfficientDet。EfficientDet=EfficientNet+BiFPN+compound scaling
2.介绍
- 两个主要的挑战:
-
有效的多尺度特征融合。
FPN被广泛运用于多尺度特征融合,但以前的这些都是进行简单的相加。通常输入分辨率不一样,对输出特征的贡献也不一样。 为了处理这个问题,我们提出了⼀种简单⽽⾼效的加权双向特征⾦字塔⽹络(BiFPN),该⽹络引⼊可学习的权值来学习不同输⼊特征的重要性,同时反复应⽤⾃顶向下和⾃底向上的多尺度特征融合
-
model scaling
虽然以往的研究主要依赖于更⼤的骨⼲⽹络或更⼤的输⼊图像尺⼨来获得更⾼的精度。 但我们发现,在兼顾精度和效率的情况下,缩放特征⽹络和分类预测⽹络、回归预测网络也是⾄关重要的。我们提出了⼀种针对所有骨⼲⽹络、特征⽹络、回归/分类预测⽹络的分辨率/深度/宽度的复合缩放方法。
-
3. BiFPN
在本⽂中,我们主要遵循one stage的设计,我们证明了通过优化的⽹络结构可以获得更好的效率和更⾼的精度。
3.1 Multi-Scale Feature Representations
resize通常是upsampling or downsampling
3.2 Cross-Scale Connections
本⽂提出了跨尺度连接的⼏个优化⽅法:
- ⾸先,我们删除了那些只有⼀条输⼊边的节点;我们的直觉很简单:如果⼀个节点只有⼀条输⼊边⽽没有进⾏特征融合,那么它对融合不同特征的特征网络的贡献就较⼩。这就形成了⼀个简化的双向⽹络;
- 其次,在原输⼊节点到输出节点在同⼀⽔平上增加⼀条边缘,以在不增加成本的情况下融合更多的特征;
- 第三,不同于PANet只有⼀条⾃顶向下和⼀条⾃底向上路径,我们将每⼀条双向(⾃顶向下和⾃底向上)路径视为⼀个特征⽹络层,并在同⼀层重复多次,以实现更⾼级的特征融合。
新的特征网络命名为双向特征金字塔网络 bidirectional feature pyramid network (BiFPN)。
3.3 Weighted Feature Fusion
融合具有不同分辨率的特征时,一种常见的方法是首先将它们resize为相同分辨率的大小,然后将它们相加。Pyramid attention network引入了一种 global self-attention upsampling 来恢复像素的定位。
不同分辨率的输入特征对输出结果影响不一样。因此,我们提出给每个输出结果增加一个权重表示输入的重要性。
由于标量权值是无界限的,会导致训练不稳定。因此要进行权值归一化来限定权值范围。
softmax归一化到[0,1],但会导致GPU的减速
通过在
W
i
W_i
Wi后应用Relu来保证
W
i
>
=
0
W_i>=0
Wi>=0,设置
ϵ
=
0.0001
\epsilon=0.0001
ϵ=0.0001避免不可收敛。归一化后的值同样在0~1之间,但是更有效。
我们的最终BiFPN集成了双向交叉连接和快速归一化
为了提高效率,用了深度可分离卷积进行特征融合,在卷积之后运用了归一化和激活函数。
4. EfficientDet
4.1 EfficientDet Architecture
我们使⽤imagenet预训练的efficientnets作为Backbone。我们提出的BiFPN作为特征⽹络,从主干网中选取3-7级特征{P3, P4, P5, P6, P7},反复采⽤⾃顶向下和⾃底向上的双向特征融合。将这些融合后的特征分别输⼊分类和回归⽹络,分别⽣成object class 和bounding box预测,class 和box network 权值是共享的。
4.2 Compound Scaling
最近的研究显示,通过***联合扩展⽹络宽度、深度和输⼊分辨率的所有维度,在图像分类⽅⾯表现出
了显著的性能***。受这些⼯作的启发[10,39],我们提出了⼀种新的复合缩放⽅法⽤于⽬标检测,该⽅法使⽤⼀个简单的复合系数φ来联合缩放主⼲、BiFPN、class/box⽹络和分辨率的所有维度。⽬标检测器⽐图像分类模型具有更多的尺度,因此对所有维度进⾏⽹格搜索是⾮常昂贵的。因此,我们使⽤了⼀个基于启发式的缩放⽅法。
4.3 Backbone network
我们可以重⽤effecentnet - B0到B6[39]的相同的宽度/深度缩放系数,这样我们就可以很容易地重⽤它们的
imagenet预训练的检查点
4.4 BiFPN network
形式上,BiFPN的宽度和深度按如下公式换算:
4.5 Box/class prediction network
我们将它们的宽度固定为始终与BiFPN相同(即Wpred = Wbifpn),但使⽤以下公式线性增加深度(#layers):
4.6 Input image resolution
2
7
=
128
2^7=128
27=128
5.实验
6. 消融实验
6.1 Disentangling Backbone and BiFPN
6.2 BiFPN Cross-Scale Connections
通过附加的加权特征融合,我们的BiFPN在更少的参数和FLOPs的情况下获得了最好的精度。
6.3 Softmax vs Fast Normalized Fusion
6.4 Compound Scaling(复合缩放)
Scale Jittering:数据增强方法。先调整图像的大小(大小任意),然后将其裁剪为固定大小。
版权声明:本文为CSDN博主「chairon」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/chairon/article/details/122482108
暂无评论