GIRAFFEDET: A HEAVY-NECK PARADIGM FOR OBJECT DETECTION

论文地址:https://arxiv.org/pdf/2202.04256.pdf
GiraffeDet使用了一个非常轻的主干和一个非常深和大的颈部模块,这鼓励了不同空间尺度之间的密集信息交换,以及同时不同层次的潜在语义。该设计范式使得检测器能够在网络的早期阶段以相同的优先级处理高级语义信息和低级空间信息,从而提高了检测任务的效率。

一、文章简介:

对于尺度敏感的特征生成,传统的主干算法计算成本高,且存在领域转移问题(从图像分类到目标检测)。另一种轻量级主干可以解决这些问题。其次,对于检测器来说,学习充分的语义和空间特征融合信息是至关重要的。作者设计了一个类似长颈鹿的网络,命名为GiraffeDet,其研究思路如下:
(1)一种替代的轻量级主干可以提取多尺度的特征变换,而不需要额外的计算成本。
(2)充分的跨尺度连接,Queen- fusion就像象棋中的Queen Piece路径一样,能够处理不同层次、不同层次的特征融合。

二、实现细节:

在这里插入图片描述
为了实现充分的多尺度信息高效交换的目标,本文提出了用于高效目标检测的GiraffeDet,该“长颈鹿”由轻量级的空间-深度主干、广义fpn和预测网络组成。

(一)、Skip-layer Connection

与其他连接方法相比,跳跃连接在反向传播过程中特征层之间的距离较短。为了减少梯度在这样一个沉重的“长颈鹿”颈部消失,在我GFPN中,提出了两种特征链接方法:dense-link和log2n-link,如下所示:
在这里插入图片描述
:(a)密集链路(dense-link):表示前面所有层的连接。(b)

l

o

g

2

n

l

i

n

k

log_2 n-link

log2nlink:表示最多

l

o

g

2

l

+

1

log_2l+ 1

log2l+1层的连接。
dense-link:
在这里插入图片描述
其中Concat()表示前几层生成的feature-map的拼接,Conv()表示3x3卷积
log2n-link:
在这里插入图片描述
Concat()和Conv()也分别表示串联和3x3卷积。与深度为l的dense-link相比,log2n-link的时间复杂度仅为

O

(

l

l

o

g

2

l

)

O(l·log_2l)

O(llog2l),而不是

O

(

l

2

)

O(l^2)

O(l2)。此外,log2n-link只增加了反向传播时层间较短的距离。因此,log2n-link可以扩展到更深层的网络。

(二)、Cross-scale Connection

在这里插入图片描述
如上所示,P5中Queen-fusion的拼接包括前一层P4下采样、前一层P6上采样、前一层P5和当前层P4。在本文中,我们分别采用双线性插值和最大池化作为上采样和下采样函数。因此,在极端大规模变化场景下,需要模型具有足够的高层和低层信息交换。基于我们的跨层和跨尺度连接机制,提出的广义fpn可以像“长颈鹿颈”一样尽可能长地扩展。有了这样的“heavy neck”和一个轻lightweight backbone,GiraffeDet可以平衡更高的准确性和更好的效率平衡。

(三)、GIRAFFEDET FAMILY

基于GFPN和S2D-chain,作者开发了一个GiraffeDet家族。以前的大多数工作都是通过改变更大的骨干网来扩大基线探测器,因为他们的模型主要集中在单一或有限的尺度上。假设主干对于目标检测任务不是关键的,所以GiffeDet家族只关注广义fpn的缩放。提出两个乘法器来控制GFPN的深度(层数#)和宽度(通道数#):
在这里插入图片描述
作者开发了GiraffeDet的六种架构,如下所示。GiraffeDet- d7、D11、D14、D16与基于resnet系列的模型具有相同级别的FLOPs,请注意,GFPN的层与其他FPN设计不同。在GFPN中,每一层代表一个深度,而PANet和BiFPN层包含两个深度。在这里插入图片描述

三、消融实验

在这里插入图片描述
GiraffeDet在每个像素尺度范围内都取得了最好的性能,这说明提出的轻骨干和重颈范式以及GFPN能够有效地解决大尺度方差问题。同时,在跨层、跨尺度连接下,可以实现高层语义信息和低层空间信息的充分交换。许多对象实例小于COCO数据集中图像区域的1%,这使得检测器难以检测。即使非常小的实例很难检测到,GFPN仍然在像素范围0-32比RetinaNet表现好5.7%的mAP,在中间像素范围80-144比相同的mAP表现好。值得注意的是,在192-256像素尺度范围内,GiraffeDet方法的性能优于其他方法,这证明GFPN可以有效地学习尺度敏感特征。
在这里插入图片描述

与最先进的方法的比较。GiraffeDet家族在每一个相同级别的FLOPs中都比之前的检测器取得了更好的性能,这表明GiraffeDet可以有效、高效地检测对象。
1)与基于resnet的低级别FLOPs算法相比,即使整体性能没有明显提高太多,GiraffeDet在检测大小对象的情况下也有显著的性能。结果表明,该方法在大规模变异数据集上具有较好的性能。
2)与基于ResNextbased的高级别FLOPs算法相比,GiraffeDet算法在低级别FLOPs具有更高的性能,这表明一个好的FPN设计可能比一个沉重的主干更重要。
3)与其他方法相比,所提出的GiraffeDet系列还具有SOTA性能,这证明GiraffeDet在每个FLOPs级别上都实现了更高的精度和更高的效率。

在这里插入图片描述
Skip-layer连接。根据GiraffeDet的GFPN-dense和GFPN-log2n neck的结果,我们观察到log2n连接的性能是最好的,而密集连接的性能仅比没有任何跳过层连接的性能略好。说明log2n连接可以提供从早期节点到后期的更有效的信息传输,而密集连接可能会提供冗余信息传输。同时,log2n连接可以在相同级别的FLOPs上提供更深入的广义fpn。值得注意的是,这两种广义fpn连接都比堆叠的BiFPN获得了更高的性能,这可以证明GiraffeDet可以更高效。
堆叠PANet和堆叠BiFPN比具有双向信息流的基本结构具有更高的精度,这说明了信息交换在FPN结构中的重要性。总的来说,GiraffeDet模型可以获得更好的性能,这证明了queen融合可以从之前的节点中获得足够的高层和低层信息交换。特别是在没有跳层连接的情况下,广义fpn仍然优于其他方法。在这里插入图片描述

为了进一步与不同的“Neck”进行比较,在相同的FLOPs水平上对堆叠的基本FPN、PANet和BiFPN进行了两组实验比较,请注意,GFPN和FPN的每一层都包含一个深度,而PANet和BiFPN的层包含两个深度。如上所示,GFPN在各种FPN中深度和宽度都优于其他FPN,这也说明log2n连接和Queen-fusion能够有效地提供信息传输和交换。此外,GFPN可以在更小的设计中实现更高的性能。
在这里插入图片描述

上图为不同颈深和不同脊柱在相同FLOPs水平下的性能。
在这里插入图片描述
展示了summation-based的特征融合和concatenation-based的特征融合的性能。在相同的FLOPs水平下,concatenation-based的特征融合风格可以获得更好的性能。虽然summation-based的特征融合比concatenation-based的方式有更少的失败概率,但性能明显较低。牺牲mAP来减少失败是不值得的。值得注意的是,GFLOPs超过300后,“求和”模型的性能略有提高,说明基于concatenation-based的特征融合方式可以再次更加准确和高效。
在这里插入图片描述
ResNet + FPN模型与S2D-chain + GFPN模型在相同FLOPs水平上的推理时间比较。橙色线表示“S2D-chain + GFPN”,紫色线表示“ResNet + FPN”。

版权声明:本文为CSDN博主「小小小~」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_52302919/article/details/123040686

小小小~

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

YOLOv3详解

1. 什么是YOLO ​  YOLO是“You Only Look Once”的简称,它虽然不是最精确的算法,但在精确度和速度之间选择的折中,效果也是相当不错。YOLOv3借鉴了YOLOv1和YOLO

yolov5学习笔记

用已有模型预测自己的图片和视频 配置环境略。 在detect.py文件中改一下路径,或者把下载好的图片放入对应文件夹即可。 目标检测指标 IoU 的全称为交并比(Intersection over Uni

YOLO X解读

YOLO X 1.yolo系列简介 yolo-x仍然保留有yolo系列的整体的特征,首先我们先来回顾以下yolo系列的整体框架: 首先我们输入一张图片进入yolo网络,yolo会自动调整图片的大小