2021-11-14

Receptive Field Block Net for Accurate and Fast Object Detection 接收域块网络准确和快速 的目标检测


摘要

目前性能最好的目标检测器依赖与CNN的深层主干,如resnet和inception,它们受益与强大的特征表示,但是却承受着高昂的计算成本。相反,一些基于轻量级的检测器实现了实时处理,但是其准确性却不好。在这篇文章中,通过使用手工机制加强轻量级功能来构建一个快速和准确的检测器。本文从人类视觉系统接收域FRs的结构出发,提出了一个新的RFB模块,该模块考虑了接收域的大小和偏心距之间的关系,增强了特征的可识别性和鲁棒性。我们进一步将RFB组装到SSD的检测头中,构建了RFB的网络探测器。为了评价其有效性,在两个主要基准上进行了实验,结果表明,RFB能够在保持实时性的前提下达到高级探测器的性能,


# 一、引言

    近年来,基于区域卷积神经网络及其代表性的网络,如fast rcnn和faster rcnn,一直在一些主要挑战赛和基准上提升目标检测的性能,如voc,coco,ilsvrc.它们将这个问题分为两个阶段解决,并构建一个典型的pipeline,其中第一个是给确定图片一些proposals,第二阶段是基于CNN提取的特征给每一个proposal确定类别。普遍认为,在这些方法中,CNN表示有着至关重要的作用,学习的特征被期望提供一个高鉴别的编码对象的特征和良好的鲁棒性,特别是对适度的位置移动,通常是由于不准确的标注框。最近的一些成果,证明了这一点。例如,resnet,inception都是从CNN的深层主干中提取特征;19采用了自顶向下的架构构建特征金字塔,集成低层和高层信息;最新的mask-rcnn使用ROIAlign层,以产生更精确的区域特征。所有的这些方法都采用改进的特征,以达到更好的效果;但是,这些特征来自神层网络,计算成本高,推理速度慢,

    为了提高检测速度,研究了一阶段检测器,去掉了对象建议生成阶段。yolo,ssd实现了实时处理的能力,相对于两阶段的解决方案,其准确性有所下降。
根据上面的讨论,要构建一个快速而强大的检测器,一个合理的替代方案是通过引入某些手工机制来增强轻量级网络的特征,而不是一味的深化网络模型。另一方面,神经科学的一些发现表明,在人类视觉皮层,人群接收域的大小是其视网膜定位图中偏心度的函数,尽管在不同的定位图中有所不同,但在每个定位图中,他随着偏心度的增加而增加,如图所示。它有助于突出靠近中心的区域的重要性,并提高对小空间变化的不敏感性。一些浅层设计就是利用了这种机制设计或学习它们的池化机制,并且在图像块匹配方面展示了良好的性能。
在这里插入图片描述
    对于目前的深度学习模型,通常在特征图上设置与常规采样网格相同大小的RFs.Inception考虑多种不同大小的RFs,它通过启动具有不同卷积核的多分支卷积层实现这个概念,它的变体在目标检测领域和分类中取得良好的结果。然而,INception中的所有卷积核都是在同一个中心取样的,。3中也出现了类似的想法,其中ASPP捕获多尺度信息。该算法在顶部特征图上采用多个不同速率的并行卷积来改变距离中心的采样距离,在语义分割中得到很好的效果。但这些特征仅在相同核大小的前一卷积层中具有统一的分辨率,与雏菊形状的卷积层相比,所得到的特征不太明显。可变形卷积尝试根据物体的尺度和形状自适应调整RFs的空间分布,虽然其采样网格是灵活的,但是没有考虑RF的偏心度的影响,即RF中的所有像素对输出响应的贡献是相同的,最重要的是信息没有被强调。
    受人类视觉系统的启发,本文提出一种新的模块,RFB,以增强从轻量级CNN模型中学习到deep features,从而有助于快速、准确的检测。具体来说,RFB利用多分支池,不同大小的RF对应不同的卷积核大小,应用扩张卷积来控制RF的离心度大小,并对它们进行重塑,生成最终的表示,如图所示。把RFB插入到SSD的顶部,构建了一个轻量级的一阶段检测器。并且性能较好,RFB也是通用的。
我们的贡献有:
第一、RFB模拟人类视觉系统中的RF大小核偏心度,旨在增强轻量级网络的深度特征
第二、使用RFB代替SSD中顶层卷积,性能提高,保持计算成本在控制之内
第三、连接Mobile net证明了RFB的实时处理能力
在这里插入图片描述

二、相关工作

感受野
在本文研究中,我们的目标是在不产生太多计算成本的情况下提高检测性能。因此,我们采用RFB来增强基于轻量级模型的特征表示,而不是使用非常深的网络骨干,模仿了人类视觉系统中的RF机制。实际上,已经有一些工作在讨论CNN中加入RFs,如inception,ASPP,可变形卷积。
inception 采用不同内核大小的多分支来获取多尺度信息。但是,因为所有的卷积核都是在同一个中心采样的,这就需要更大的内核才能达到相同的采样覆盖率,并且因此丢失了一些关键信息;ASPP来说,扩张卷积改变了到中心的采样距离,但是特征与相同卷积核的前几个卷积层的分辨率是一致的,对所有位置的线索都是一视同仁的,可能会导致对象与上下文的混淆;可变形卷积学习几何形变的物体的独特几何信息,但他与ASPP有着相同的缺点。RFB强调了雏菊形状中的RF大小和偏心度的关系,较小的核将更大的权重分配给离中心更近的位置,表示它们比离中心更远的位置更重要。四种典型空间RF结构的差异图所图所示:
在这里插入图片描述

三、方法

1.视觉皮层重新审视

在过去几十年中,功能性磁共振成像FMRI以毫米 为单位侵入人类大脑活动,而射频建模已经成为一种重要的感官科学工具去预测大脑反应和计算。自从人类神经科学仪器经常观察许多神经元的汇集反应,因此这些模型通常为pRF模型。基于FMRI和pRF模型,可以研究大脑皮层中许多视野图之间的关系,研究发现视野大小和离心率之间存在正相关关系,而在视野图上,相关系数是不同。如图1所示。

2.RFB

提出的RFB是一个多分支卷积块,其内部可以分为两个部分,具有不同内核的多分支卷积块和扩张池或者卷积层。前者和Inception相同,负责模拟多个尺度的pRF,后者在则是与人类视觉系统中pRF尺度与偏心度之间的关系。图二显示了fRF及其相应的空间区域映射图,下面对两个部分进行阐释。
一、多分支卷积层
根据CNN中RF的定义,采用不同大小的卷积核实现多尺度感受野是一种简单而自然的方法,比使用固定尺寸的RF要好。

我们使用Inception v4,Inception-resnetv2。具体来说,就是我们在每个分支中使用瓶颈结构,包含1×1卷积,为了减少特征的通道数,然后使用n×n卷积。第二,让两个3×3的卷积代替5×3的卷积减少参数量,并且加深非线性层。同样的原因,我们使用一个1×n和一个n×1代替n×n.,最后,加上残差连接
二、扩张池化或卷积层
这个概念最初是在deeplab中引入的,叫做扩张卷积层。这种结构的基本目的是生成更高分辨率的特征图,在保持相同数量的参数的同时,能在更大的区域捕获更多的信息。这种设计在语义分割方面表现出色,并且也在目标检测中采用,如SSD,R-FCN,以提高速度或准确性。

在这里插入图片描述

在这篇论文里,我们采用扩张卷积来模拟人类视觉皮层中的pRF偏心的影响。图4说明了多分支卷积层和扩展卷积的两种组合。在每个分支上,特定的内核大小的卷积层之后是扩张卷积层,并进行了相应的扩展。核的大小与扩张率与视皮层中pRF的大小与偏心度有相似的正相关函数关系。最后,所有分支的特征映射被连接起来,并合成一个卷积组,如图1所示。

RFB的具体参数,如kernel的大小,每个分支的膨胀率和分支数量,在检测器的每个位置上都有细微的不同,这将在下一节中进行说明。

RFB网络检测体系结构

将RFB嵌入到SSD的多尺度框架中,改进了从轻量级主干提取的特征,提高了检测的准确性,并且速度也是很快的。由于RFB易于集成到CNN的特征,我们尽可能地保留了SSD架构。主要的修改是将上面的卷积层替换为RFB。整体框架如图5所示:
在这里插入图片描述
轻量级的backbone:
我们采用相同的主干网络vgg16结构,vgg16是预训练好的,其中将fc6和fc7层转换为下采样的卷积层,pool5层有2×2-s2改为3×3-s1。

RFB在多尺度的特征图:
在原始的SSD上,基础网络之后是层叠的卷积层,形成一些列空间分辨率不断降低,感受野不断增大的特征图。在我们的方法中,我们保留了SSD的级联结构,但RFB模块取代了具有较大分辨率特征图的前面卷积层。在RFB的最初版本中,使用单一结构设置模拟偏心的影响。因为不同的视觉图上的pRF的大小和偏心度的不同,我们相应的调整了RFB的结构,形成RFB-s结构,如图4所示,这个是因为它模仿了人类浅层网膜定位图中更小的pRF,并将它conv4特征之后。最后几个卷积层被保留下来,因为它们的特征图的分辨率太小,无法应用像5×5这样的大内核的过滤器。


总结

第一、一个特征点的感受野不仅与大小有关系,还与偏心度也有关系。 第二、偏心度:一个特征点的感受野上并不是所有的像素都是同等重要的,对于感受野来说,距离中心越近的像素对输出的特征图的贡献就越大。 第三、感受野的大小越大,表示其代表的原始图像范围越大,也意味着它可能包含更为全局的信息,语义信息就越丰富,感受野越小表示所包含的特征越局部和细节。 RFB模块借鉴人类视觉系统中pRF的大小与偏心度成正比的关系。 首先使用不同的卷积核(1×1,3×3,5×5)进行多尺度提取图像不同范围的像素,进而再使用膨胀卷积,相同的卷积核3×3,不同的膨胀率1,3,5,表示不同大小的偏心度,最后把得到的卷积进行concatenate,和1×1卷积操作。

版权声明:本文为CSDN博主「rongjiehan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_40558830/article/details/121321770

rongjiehan

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

目标检测和手势识别(笔记)

目录 一.R-CNN     二.目标检测    1.具体过程如下: 2.R-CNN基本工作流程: 3.R-CNN的优点与不足: 除此之外 ——————————————————————————————— 三

对抗网络实现特征迁移技术路线

对抗网络实现特征迁移技术路线: 特征提取器目标: 将源域和目标域样本输入,目标是使得提取的特征与域无关,同时能够正确分类。 分类器目标: 训练源域模型 损失函数的目