CVPR2020论文笔记——EfficientDet---双尺度特征融合BiFPN目标检测

代码：https://github.com/google/automl/tree/ master/efficientdet.
摘要：提出了提高效率的几个关键优化

提出了一种加权的双向特征金字塔网络，它允许简单和快速的多尺度特征融合
提出了一种复合缩放方法，可以同时统一缩放所有主干、特征网络和bbx/类预测网络的分辨率、深度和宽度
1.引言
在融合不同输入特征的时候，以往的网络，对特征图总是不加以区分进行简单的计算，然后，由于不同输入特征拥有不同的分辨率，对融合后输出的特征的贡献是不一样的。为了解决这个问题，作者提出了bi-directional feature pyramid network 双向特征金字塔BiFPN。它引入了可学习的权值来学习不同输入特征的重要性，同时重复应用自顶向下和自底向上的多尺度特征融合。
在考虑模型缩放的时候，以前的工作主要依赖于更大的网络或者更大的输入图像大小来获得高精度。作者在这里提出了一种联合缩放的方法，该方法会缩放所有主干网络、特征网络、bbx和类概率预测的网络的分辨率/深度/宽度。
2.相关工作
one-stage 目标检测：
多尺度特征表示：
模型缩放：
3.BiFPN
介绍了提出的双尺度特征融合的主要思想:高效的双向跨尺度连接和加权特征融合。
多尺度特征融合旨在聚焦不同分辨率的特征。
给定一个多尺度特征列表
代表li级的特征，我们希望可以找到一个映射f，使得f可以有效地聚合不同的特征，并输出新的列表
传统的FPN

P3~P7表示输入特征，其实下角标i(3,4,5,6,7)表示的是分辨率为输入图像的（1/2）^2的特征级别。加入输入分辨率为640640，则P3的输入就为8080，P7的输入为5*5
传统FPN以自上而下的方式聚集多尺度特征:

其中Resize通常是分辨率匹配的上采样或下采样操作，而Conv通常是特征处理的卷积操作。

3.2跨尺度连接
传统的自上而下的FPN本质上受到单向信息流的限制。为了解决这个问题，PANet 增加了一个额外的自下而上的路径聚合网络，如图所示。
在这里插入图片描述
NAS-FPN 采用神经架构搜索来搜索更好的跨尺度特征网络拓扑，但是这种方法对算力资源消耗很大，并且网络不规则，很难解释，如图C。

本文提出的优化方法：

删除那些只有一条输入边的节点。如果一个节点只有一条输入边而没有特征融合，那么它对以融合不同特征为目标的特征网络的贡献就会更小。
如果它们在同一级别，我们从原始输入到输出节点添加额外的边，以便在不增加太多成本的情况下融合更多的特征
将每个双向(自顶向下&自底向上)路径视为一个特征网络层，并多次重复同一层，以实现更高级别的特征融合。
如下图所示

3.3加权特征融合
由于不同的输入特征具有不同的分辨率，它们对输出特征的贡献通常是不相等的。为了解决这个问题，为每个输入添加额外的权重，并让网络了解每个输入特征的重要性。作者考虑了三种方法
Unbounded fusion
其中wi是一个可学习的权重，可以是标量/向量/多维度张量。由于标量权重是无界的，它可能会导致训练不稳定。因此，我们采用权重归一化来限定每个权重的取值范围。
基于Softmax的融合

将softmax应用于每个权重，使得所有权重被归一化为值范围从0到1的概率，表示每个输入的重要性。
Fast normalized fusion 快速归一化融合

这种快速融合方法与基于softmax的融合方法具有非常相似的学习行为和准确性，其中wi>=0,再通过Relu之后来确保数值的稳定。每个归一化权重的值也在0和1之间
作为一个具体的例子，描述了图(d)所示的两个融合特征在第6层的情况:

为了进一步提高效率，使用深度可分离卷积进行特征融合，并在每次卷积后添加批量归一化和激活。
4.efficientDet
如上图图三所示，主要遵循了one stage的检测器，采用ImageNet预训练网络，采用BiFPN来实现特征融合。从主干网络中提取3-7级特征{P3、P4、P5、P6、P7}，反复应用自顶向下和自底向上的双向特征融合。这些融合的特征被馈送到类和bbx网络，以分别产生对象类和包围盒预测。类别和bbx网络权重在所有级别的功能中共享。

4.2.复合缩放

提出了一种新的用于目标检测的复合缩放方法，该方法使用简单的复合系数φ来联合缩放主干、BiFPN、类/bbx网络和分辨率的所有维度。
Backbone network
我们重新使用了EfficientNet-B0到B6相同的宽度/深度缩放系数
BiFPN network
线性增加了BiFPN的深度在这里插入图片描述
对于宽度（通道）采用指数增加的方法
（1.35是从几个参数中选择的最佳参数）
Box/class prediction network
宽度始终与BiFPN相同，但是线性增加了深度，

输入分辨率：

根据三个含有φ的等式，设计了8种检测器，EfficientDet-D0 (φ = 0) to D7 (φ = 7)。如表所示， D7和D7x具有相同的双PN和头，但是D7使用更高的分辨率，D7x使用更大的主干网络和一个更多的特征级别(从P3到P8)。