《Feature Pyramid Networks for Object Detection》

1. 研究问题

特征金字塔是识别系统中用于检测不同尺度对象的基本组件。但是最近的深度学习对象检测器避免了金字塔表示,部分原因是它们是计算和内存密集型的。

2. 研究方法

本文利用深度卷积网络固有的多尺度金字塔层次结构来构建具有微小额外成本的特征金字塔,开发了具有横向连接的自顶向下架构,用于构建所有尺度的高级语义特征图。这种称为特征金字塔网络 (FPN) 的架构在多个应用中作为通用特征提取器显示出显着改进。

2.1 Feature Pyramid Networks

本文的目标是利用 ConvNet 的金字塔特征层次结构,它具有从低级到高级的语义,并构建一个始终具有高级语义的特征金字塔。

本文的金字塔的构建涉及自下而上的路径、自上而下的路径和横向连接。如下图所示。

在这里插入图片描述

2.1.1 Bottom-up pathway

自下而上的路径是主干 ConvNet 的前馈计算,它计算由多个尺度的特征图组成的特征层次结构,缩放步长为 2。对于产生相同大小特征图输出的层,我们称这些层处于网络的同一阶段(stage)。对于每个stage的最后一个卷积层,定义为一个金字塔级别,用于扩展自上而下和横向连接的特征金字塔。对于ResNet,本文采用在每个阶段最后一个残差块,进行特征金字塔扩展。

2.1.2 Top-down pathway and lateral connections

自上而下的路径通过对来自更高金字塔级别的空间上更粗糙但语义上更强大的特征图进行上采样来产生更高分辨率的特征。这些特征然后通过横向连接从自下而上的路径中得到增强。每个横向连接合并来自自底向上路径和自顶向下路径的相同空间大小的特征图。自下而上的特征图具有较低级别的语义,但其激活更准确地定位,因为它的子采样次数更少。

下图显示了本文构建的自顶向下特征图的构建块。对于较粗分辨率的特征图,将空间分辨率上采样 2 倍(为简单起见,使用最近邻上采样)。然后通过逐元素加法将上采样图与相应的自底向上图(经过 1×1 卷积层以减少通道尺寸)合并。重复此过程,直到生成最精细的分辨率图。

在这里插入图片描述
为了开始迭代,本文采用简单地在 C5 上附加一个 1×1 的卷积层来生成最粗的分辨率图。最后,在每个合并的图上附加一个 3×3 的卷积来生成最终的特征图,这是为了减少上采样的混叠效应。这最后一组特征图称为{P2,P3,P4,P5},对应于分别具有相同空间大小的{C2,C3,C4,C5}。

由于金字塔的所有级别都使用共享分类器/回归器,就像在传统的特征化图像金字塔中一样,我们在所有特征图中固定了特征维度(通道数,表示为 d)。 我们在本文中设置 d = 256,因此所有额外的卷积层都有 256 通道输出。在这些额外的层中没有非线性,本文根据经验发现这些影响很小。

3. 实验结果

4. 结论

在基本的 Faster R-CNN 系统中使用 FPN,本文的方法在 COCO 检测基准上实现了最先进的单模型结果,超越了所有现有的单模型条目,包括来自 COCO 2016 挑战赛获胜者的条目。此外,本文的方法可以在 GPU 上以 5 FPS 的速度运行,因此是多尺度目标检测的实用且准确的解决方案。

版权声明:本文为CSDN博主「will be that man」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_42676511/article/details/121691688

will be that man

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

YOLO v4在jetson nano的安装及测试

You only look once (YOLO)是一款非常著名的物体识别深度学习网络,可实现快速检测的同时还达到较高的准确率。官网 https://pjreddie.com/darknet/yolo/ 本文介绍yolo v4版