一、(1):开题后的内容整体把握--多目标检测综述

学习目标:

1、多目标检测算法模型

2、主流的用于多目标检测的卷积神经网络框架

3、目标检测算法(one-stage、two-stage)


学习内容:

1、 目标检测算法模型有哪些

        目标检测算法模型有两种:一种是anchor-based类模型另一种则是anchor-free类模型。其中anchor-based类模型包括有(1)基于回归的one-stage方法,检测速度更快,一般步骤是特征提取、分类和定位回归;(2)基于候选框生成和分类的two-stage方法,特点是较丰富的特征和较高的准确率,一般步骤是特征抽取、生成候选框、分类和定位回归。
 

2、主流的卷积神经网络框架

         (1)最早最著名的LeNet

        LeNet有着6层的网络结构,包括3个卷积层,2个下采样层和1个全连接层。每个卷积层包括卷积、池化以及sigmoid激活函数三部分,使用卷积提取空间特征,降采样层采用平均池化,最后采用softmax作为分类器。

        (2)增加LeNet网络深度和广度的AlexNet

        AlexNet有着8层的网络结构(不包括激活、池化、LPN和dropout层)其中5个卷积层和3个全连接层;激活函数使用ReLU;池化层使用大小为3X3的重叠池;将dropout层添加到完全连接层的优点之一是将训练模型进行了并行化加速,极大缩短了训练周期,ReLU作为激励函数对深度网络梯度分散问题具有较大的帮助,使用数据增强,dropout和LRN层来阻止网络过度拟合,提高模型的泛化能力。

        (3)易于移植,参数已经训练好的VGGNet深度卷积网络

        VGGNet有着16层的网络结构(不计入池化层和softmax),VGG在不同层通过增加loss损失函数和inception结构两种方式与AlexNet网络的区别,其中VGGNet拥有16~19层的网络层数,而AlexNet只有8层,VGG16把卷积层上升到卷积块的概念,卷积块包括2~3个卷积层,增大了网络感受野,减少了网络参数,并且通过反复使用激活函数ReLU,可得到更多的线性变换,进一步提高了学习能力,多尺度用于训练和预测期间的数据增强,将相同的图像缩放到不同的尺寸以进行预测,最后取平均值。

        (4)加深加宽网络,减少参数量的GoogLeNet

        GoogLeNet的好处是很大程度上加深和加宽了网络,减少了参数量,将错误率将至6,656%,但该模型的计算复杂度高,修改通道数困难

        (5)目前最好之一的ResNet网络

        有着152层超深卷积神经网络,ResNet模型就是残差学习单元的连续叠加,理论上无线叠加也不改变网络性能。实现了深层的神经网络结构,解决了因不断深化神经网络而使得准确率达到饱和的问题。输入和输出能直接相连,这样学习残差就是整个网络的工作,很好地简化了学习目标与难度。一种迁移性很好的网络结构,易于与其他网络集成。

        (6)DenseNet网络

        该网络新增着特殊的稠密块和过渡层,其中稠密块为稠密连接的highway的模块,稠密块定义输入和输出的连接方法,稠密块内部特征图大小必须一致,层级输入是多个字符串的连接,区别于ResNet的element-wise连接,内部每个节点代表BN+ReLU+Conv。过渡层为相邻2个稠密块的中间部分。该网络的优点是:highway的稠密连接方式缓解了深层网络的梯度消失问题,特征得到了重用,大幅度减少了模型参数,甚至减少了在小样本数据上的过拟合。该网络的缺点是:随着稠密块深度的加深,深层输入特征图谱的维度和最终输出的维度都非常大;然后针对这一问题,针对这一问题,采取在稠密块里添加Bottleneck单元和在过渡层里添加1X1卷积的方式来降维。
 

3、目标检测算法(one-stage算法)

(1)Overfeat算法

        候选框通过滑动窗口和规则块获得,通过多尺度滑动窗口来改善检测结果,利用卷积神经网络与回归模型对目标进行分类和定位。

(2)YOLO算法

        其优点是训练时使用P-ReLU激活函数,检测速度快达到实时性要求;其缺点是只分析最后7pixelX7pixel的特征图谱,导致对小目标的检测质量不佳,难以区分多个目标在同一个网络单元的情况。该算法的步骤是与二阶段算法的主要区别是使用图像的全局信息来预测目标,将输入图像大小调整为固定的448X448,为简化网络结构,去掉了提取候选框分支,用了一个无分支卷积网络来提取特征、回归候选框和分类,直接预测各网络内的边框坐标以及类别的置信度。

(3)SSD算法

        相比较与YOLO算法,针对YOLO算法定位精度差的问题,加入了多尺度特征检测、匹配策略、修改VGG16结构、加入atrous算法。该算法的优点是定位准确和算法速度快;该算法的缺点是小目标的特征模糊不利于检测,没有候选区域时,难以回归,容易导致不收敛问题。

(4)DSSD算法

        DSSD算法相比较与SSD算法的提高部分,针对SSD算法难以检测小目标的问题,用ResNet101网络取代SSD的VGG16.该算法的优点是DSSD对于ResNet网络取代SSD的VGG16,提取网络特征的能力得以提高,用反卷积层增加了大量上下文信息。缺点是对小目标检测鲁棒性较差。DSSD算法有着两个特殊模块,预测模块和反卷积模块,预测模块是为提高准确性,防止梯度直接流入ResNet主网络而采用增强每个子任务表现力的方法。反卷积模块增加了大量上下文信息。

(5)YOLOv2/YOLO9000

        YOLOV2算法相比较与YOLO,区别在于对其网络结构进行了改进,用Darknet19作为特征提取网络,并添加了BN进行预处理,提高了分辨率,提高了定位精度,增加了候选框的预测并用强约束定位方法,使算法啊召回率有了很大提高,为更好地检测小目标,融合了图像细粒度特征,使浅层特征和深层特征相结合。

(6)RetinaNet算法

        创新点在于采用focal loss替换交叉熵损失函数,降低分类良好样本的分类损失,将训练重点放在一组稀疏的样本上,防止在训练期间大量易辨识的负例给检测器带来压制影响。

(7)YOLOV3算法

        创新点在于使用了V2的Darknet53网络,并与FPN网络结构相结合,再由卷积网络得出预测结果。优点与SSD相当的精确度,检测速度快,缺点是整体模型更加复杂。

4、 目标检测算法(two-stage)

(1)R-CNN(region-based convolutional neural networks)

        R-CNN特征学习过程:   R-CNN算法使用选择性搜索算法来评估相邻图像子块的特征相似性,结合并后的相似图像区域打分,选择感兴趣区域(ROI)的候选框作为卷积神经网络样本输入,由标定框与候选框组成的正负样本特征形成相应的特征向量,采用SVM对特征向量进行分类,最后返回标定框与候选框,以达到目标检测的目的。

        R-CNN主要缺点:    重复计算量大,约有2000个候选框的方案中,每个候选框都需要经过backbone网络单独提取特征,候选框会重叠,产生大量重复计算;训练测试复杂,候选区域获取、特征获取、分类和回归都是单独运行的,中间数据也是但单独保存的;速度缓慢,前两个缺点是R-CNN速度慢的原因,难以满足实时性需求;输入图像大小的限制,输入图像大小被强制缩小为277pixelX277pixel,这将导致检测目标形变,使检测性能下降;需要进行SVM与特征回归的后期操作,并在SVM与特征回归期间不学习更新CNN特征。

        R-CNN创新点:   将将大规模的卷积神经网络应用于自下而上的候选区域以定位和分割对象;当标记的训练集不足时,对辅助任务执行监督训练,然后执行特定任务的优化,提高模型性能。

(2)针对卷积神经网络重复运算和形状扭曲变形提出的SPP-Net算法

        与R-CNN区别:   SPP-Net舍弃了R-CNN在输入神经网络之前裁剪候选框和图像子块缩放操作,在卷积层与全连接层中间添加了SPP(spatial pyramid pooling)结构,提升了候选框的生成速率,节省了计算开销。该算法从特征图上获取候选框特征向量的过程被设置到卷积操作后,将R-CNN中的若干次卷积转换为一个卷积,减少了模型的计算量

        SPP-Net缺点:   与R-CNN设计相同,训练经历了多个阶段,中间特征数据也必须保存,增加了时间开销;分类网络的初始参数被承接到backbone网络中,并未针对检测问题进行优化;训练样本的大小不一致,这将增大候选框的ROI感受野,权重不能被神经网络快速更新;SPP的微调只更新SPP层后面的全连接层,当网络很深时这样做难以奏效。

        SPP-Net创新点:   利用空间金字塔化结构;对整个图片只进行一次特征提取,运算速度较快

(3)改进了ROI pooling层的FAST R-CNN

        对比于SPP-Net的区别:   改进了ROIpooling层,将不同大小候选框的特征图采样成大小固定的特征。ROI池化层的功能和SPP层类似,但ROI更简单,仅采用单个尺度来划分网格和池化,该层可以直接求导操作,并直接将梯度传输到backbone网络。

        优点:    把深度网络与SVM分类相结合,构成multi-task模型,分类和回归由全连接层网格同时执行。

(4)解决“上两种算法需要单独的候选区域模块,运算量大”的问题,提出Faster R-CNN算法

        创新点:   添加RPN(按照既定规则设置多尺度的锚点);用RPN卷积层中获取的候选框替换选择搜索传递的候选框,以及通过建议生成窗口的CNN与目标检测的CNN共享,实现网络端到端的训练;在训练期间,除了通过模型各单元学习实现对应任务外,还配合自主学习。

(5)针对上述算法仅仅学习ROI池化层以前的卷积网络特征参数,基于FCN提出了R-FCN算法

        与Faster R-CNN的区别:   沿用了框架结构,区别在于引入位置敏感的分图取代ROI-wisesubnetwork,位置敏感的分图使用ROI Pooling来完成信息采样,融合分类与位置信息。

        创新点:  R-FCN整个网络实现特征共享,缓解了目标分类对平移不变性的要求及目标检测对有平移变化要求之间的矛盾,主要不足是缺乏对候选区域全局信息与语义信息的利用;  用基于位置敏感分布的卷积网络替换ROI池化层后的全连接网络,降低了ROI池化层后网络对各个样本区域的计算时间成本。

(6)FPN(feature pyramid network)算法

        创新点:    改进了CNN网络对特征的提取方式,让特征能更好地表达出图片各个维度的信息, 底层特征只有较少的语义信息,但目标位置准确;高层特征拥有丰富的语义信息,但目标相对粗糙。FPN很好地将低层特征的高分辨率和高层特征的语义信息相结合,同时使用不同层的特征来实现预测。

        FPN处理图像步骤:   从下到上不同维度的特征生成;从下到上对特征进行补充增强;输出的不同维度特征和CNN网络提取的特征之间的关联表达。

(7)Mask R-CNN算法

     在实例分割和检测精度方面都达到当时的最高水准,但是最大缺陷是检测速度难以满足实时需要,标注代价过于昂贵也是实例分割面临的一大问题 。

(8) MegDet算法

        以往都是提出新的范式新的损失函数,针对训练中的关键因素mini-batch做出改进的算法。

        


学习时间:

1、 周一至周五早上8 点—晚上6点
2、 周一至周五早晚上8 点—晚上10:30

3、周六下午或晚上和周日一天
 


本周学习产出:

1、 英文文献翻译:用于多目标跟踪的RAN网络
2、CSDN 技术博客 2 篇
3、 学习的 vlog 视频 1 个

版权声明:本文为CSDN博主「华水者」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/xiaobaiwsc/article/details/121308468

华水者

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

深度学习之目标检测YOLOv5

一.简介 YOLOV4出现之后不久,YOLOv5横空出世。YOLOv5在YOLOv4算法的基础上做了进一步的改进,检测性能得到进一步的提升。虽然YOLOv5算法并没有与YOLOv4算法进行性能比较与分析&#xff0