论文阅读:2021 | CE-FPN: Enhancing Channel Information for Object Detection


论文链接: https://arxiv.org/pdf/2103.10643v1.pdf.

前言

特征金字塔网络(FPN)是提取物体检测中的多尺度特征的有效框架。然而,基于FPN的方法主要遭受通道减少的内在缺陷,这带来了语义信息的损失。而杂项融合特征映射可能会造成严重的锯齿效果。在本文中,我们提出了一种新颖的通道增强功能金字塔网络(CE-FPN),具有三个简单但有效的模块来缓解这些问题。具体而言,由子像素卷积的启发,提出了一种子像素跳过融合方法来执行通道增强和上采样。而不是原来的1×1卷积和线性上采样,它会降低由于通道减少而导致的信息损失。然后,提出了一种用于提取更多特征表示的子像素上下文增强模块,其由于子像素卷积利用丰富的信道信息而优于其他上下文方法。此外,引入了通道注意力引导模块,以优化每个级别的最终集成功能,仅通过几个计算负担来减轻混叠效果。我们的实验表明,与MS CoCo基准测试的最先进的FPN探测器相比,CE-FPN实现了竞争性能。

1、INTRODUCTION

FPN 构建一个有效的框架,以解决规模变化问题,对象检测中的主要挑战。在FPN中,通过将语义信息从高级别传播到更低的级别来创建多尺度特征映射。通过融合具有浅层特征和深层语义特征的多尺度特征,FPN-base方法大大提高了物体检测的性能。

FPN 中存在两个广泛的限制:(1)融合期间的信息衰减; (2)交叉型融合中的锯齿效应。PAFPN ,Libra R-CNN和AugFPN可以在一定程度上缓解这些问题,但仍有可能进一步改进。同时,鉴于文中的观察结果,基于FPN的方法也遭受了关于信道减少的内在缺陷。将描述以下问题:

通道减少信息损失。如图1中所示。如图1(a)所示,基于FPN的方法采用1×1卷积层,以降低输出特征映射CI的频道尺寸,其也失去了通道信息。 CI通常在高级特征映射中提取数千个通道,其在Fi(例如2048至256)中减少到更小的常数。
现有的方法,主要在通道减少的feature map上添加额外的模块,而不是充分利用如图1所示的CI。1(b),1(c)。EfficientDet[9]开发不同FPN通道的各种配置。它表明,增加的FPN通道通过更多参数和FLOPs提高性能,因此EfficientDet仍然采用相对较少的通道,并提出复杂连接的BIFPN以获得更好的准确性。因此,来自backbone输出的通道下降基本上降低了随后预测的计算消耗,但也带来了信息的损失
在这里插入图片描述
融合期间的信息衰减。低级和高级别信息是对象检测的互补,而在自上而下的特征融合的进展中将稀释语义信息。 PAFPN 和Libra R-CNN 提出了创新的融合方法,可以充分利用每个级别的功能。尽管如此,高级语义特征的表示能力尚未用于更大的接收领域。对上下文信息的开发是改进特征表示的正确方法,这通过直接添加更深的卷积层来防止增加计算负担
交叉级融合中的锯齿效应。跨尺度融合和跳过连接广泛用于改善性能。直观和简单的连接可以完全在每个级别上充分利用各种功能。但是,跨尺度特征映射中存在语义差异,使插值之后的直接融合可能导致锯齿效应。杂项集成功能可能会混淆本地化和识别任务。通过改进Non-local attention在综合特征上,可以设计更多的attention模块来优化融合的混叠特征,并提高它们的鉴别能力。

  • 首先,通过超分辨率的Subpixel卷积的启发,文中引入了一种用于利用具有丰富通道信息的原始的跨级别backbone输出的sub-pixel skip fusion 方法,如图1(d)所示。
  • 其次,提出了一个Subpixel上下文增强模块,用于从最高级别的特征映射中提取和集成不同的上下文信息。Subpixel卷积是一种提升方法,其首先增加低分辨率图像的信道尺寸,这也带来了额外的计算和不可靠性。值得注意的是,FPN中的高级功能已经获得了足够的通道,这允许直接使用子像素卷积。而不是原来的1×1卷积和上采样,所提出的方法可以缓解通道信息丢失。因此,我们将Subpixel卷积的原始上采样函数扩展到融合通道信息,与CARAFE不同[16]。
  • 第三,提出了一个简单但有效的通道attention指导模块,以优化每个级别的最终集成功能。attention模块仅通过几个计算负担来减轻混叠效果。我们将整个模型命名为Channel Enhancement Feature Pyramid Network(CE-FPN),这对于各种基于FPN的检测器来说是灵活的,更加一致。

2、Overall

整体网络架构如图2所示。在FPN的设置之后,CE-FPN生成4级特征金字塔。我们表示骨干的输出作为{C2,C3,C4,C5}的输出,其具有相对于输入图像的{4,8,16,32}像素的stride。 {F2,F3,F4}是在1×1卷积后256的相同减少通道的特征。特征金字塔{P2,P3,P4}由FPN中的top-down通路生成。我们删除F5和P5的节点,这是原始最高级别功能,具有FPN的语义信息。因为所提出的方法已充分利用C5的频道信息。重复特征融合可能不仅导致更严重的混叠效果,而且不必要地计算的计算负担。在SEC IV -D中分析了该程序的效果。集成图I通过插值和最大池制作。在所有最终结果{R2,R3,R4,R5}上独立地执行预测,其对应于原始FPN的特征金字塔。
在这里插入图片描述

图2

2.1 Sub-pixel Skip Fusion

在FPN中,残差网络广泛用作骨干,其中{256,512,1024,2048}的输出通道,其中高级功能{C4,C5}包含丰富的语义信息。如图1所示。如图3(a)所示,为了计算的效率采用1×1卷积层来降低Ci通道数量,这导致信道信息的严重损失。进一步研究的基于FPN的方法通常集中在拥有256通道特征金字塔PI上的有效模块,而CI的丰富通道信息未被完全使用。

在这里插入图片描述

图3。Sub-pixel Skip Fusion(SSF)的设计思想作为C5的融合示例。(a)在FPN中,采用1×1卷积层来减少融合前的通道尺寸,这失去了通道信息。 (b)sub-pixel convolution的pipeline。通道维度应在上采样拓展。(c)在SSF中,C5的通道尺寸不会减少上采样。

如图3(b)所示,在使用子像素卷积作为上采样时,首先需要提高LR图像信道的尺寸,这带来了额外的计算。并且HR图像不可靠,需要额外的训练。因此,为了简单起见,FPN采用最近邻上采样。然而,{C4,C5}(1024,2048)中的通道量足以执行子像素卷积。因此,引入SSF以直接上采样LR图像,而没有通道减少,如图3(c)所示。 SSF利用{C4,C5}的丰富通道信息,并将其合并为FI,其被描述为
在这里插入图片描述
如图2所示,SSF可以被视为从C5到F4和C4到F3的两个额外连接。 SSF同时执行上采样和通道融合,它利用高级特征{C4,C5}的丰富通道信息来增强特征金字塔的表示能力。

2.2 Sub-pixel Context Enhancement

一方面,通过将传统FPN中的更高级别的语义信息合并,利用较低级别的特征图具有自然的不同的上下文信息。但最高级别的功能仅包含不受他人受益的单一规​​模上下文信息。另一方面,具有较高分辨率的输入图像(例如,800像素的缩短尺寸)需要具有更大接收领域的神经元,以获得更多用于捕获大对象的语义信息。为了减轻两个问题,作者采用集成图的框架,以利用C5上的更大接收字段利用更多的上下文信息。提取的上下文特征被合并到集成图I. SCE遵循SSF的设计思想,以利用C5的丰富的通道信息。
在这里插入图片描述
首先,在C5中应用3×3卷积提取本地信息。同时,它转换子像素上采样的通道大小。然后采用子像素卷积来执行双重尺度上采样,类似于SSF。
其次,将输入特征通过3×3的最大值池化缩小到W×H,并经过1×1卷积层以扩展通道大小。然后它遵循4×上采样子像素卷积。该路径获得了较大的接收领域的丰富上下文信息。
第三,我们在C5对全局上下文信息执行全局平均池。之后,将1×1×8C的全局特征挤压为1×1×C并广播到4W×4h的尺寸。第一个和第三路径分别提取本地和全局上下文信息。
最后,三个生成的特征映射通过element-wise的求和聚合到集成映射I。通过扩展三个尺度的特征表示,SCE有效地放大了C5和精制的接收领域I.因此,最高级特征中的语义信息已充分用于FPN。为简单起见,F5和P5的节点除外。

2.3 Channel Attention Guided Module

跨尺度特征映射中存在语义差异,杂项集成功能可能导致混叠效应混淆本地化和识别任务。在FPN中,在每个合并的功能映射上附加3×3卷积以生成最终特征金字塔。所提出的SSF和SCE融合更多的跨尺度特征映射,使得错误识别比原始FPN更严重。为了减轻混叠效应的负面影响,直观的解决方案是在特征金字塔上开发注意模块。然而,在金字塔的每个级别执行独立的关注模块是昂贵的,因为一些探测器采用6级金字塔或更多。同时,我们预计不同级别的注意机制可以从其他级别的信息中学习。为此,我们提出了一种受CBAM [40]的引发的渠道注意力指导模块(CAG),其引导金字塔的每个级别以减轻锯齿效应。 CAG仅通过集成图I提取信道权重。然后,频道权重乘以每个输出功能。
在这里插入图片描述
CAG的管道如图5所示。我们首先使用全局平均池化和全局最大值池化,独立地聚合两个不同的空间上下文信息。接下来,两个描述符分别转发到完全连接的层。最后,输出特征向量通过element-wise的求和和sigmoid函数合并。

3、result

在这里插入图片描述

总结

结果来看emmm 也就那样吧。相比与BIFPN等,应该是达到了一个更加轻量化的效果。我觉得文章的核心在于提供了一些上下文信息融合的思路和方法。分析了之前FPN存在的一些问题,通道减少信息损失融合期间的信息衰减交叉级融合中的锯齿效应。虽然具体的表现没有大幅度的提高,但是对分类,分割,检测的一些特征融合手段能够有一定的启发。

版权声明:本文为CSDN博主「狼刀流」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_17614495/article/details/115134625

狼刀流

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

论文笔记之CSPNet

本文解决的是减少推理计算的问题。 本文收录于CVPR2019 论文地址:https://arxiv.org/pdf/1911.11929.pdf 1. 摘要 目前最先进的能够在计算机视觉任务上取得非常好的结果的方法往往很大程度上

ASFF论文笔记

论文:Learning Spatial Fusion for Single-Shot Object Detection. Songtao Liu,Di Huang,Yunhong Wang 摘要 金字塔特征表示是解决目标检测中尺