【目标检测07】yolo v4 笔记

【参考资料】
【1】https://zhuanlan.zhihu.com/p/137393450
【2】https://www.cnblogs.com/wujianming-110117/p/13023126.html
【3】https://www.jianshu.com/p/639f9ecc1328
【4】https://blog.csdn.net/qq_28168421/article/details/107398830
【5】https://blog.csdn.net/wjinjie/article/details/110168593
【6】https://blog.csdn.net/jesse_mx/article/details/54588085

1 SPP-空间金字塔池化层

1.1 原理

   SPP 依据2014年论文《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》

在这里插入图片描述

● 将原始图像分为44个子图,针对每个子图计算最大池化值,得到 16个特征
● 将原始图像分为2
2个子图,针对每个子图计算最大池化值,得到4个特征
● 将原始图像作为输入计算最大池化值,得到1个特征
● 综合上述计算,任意尺寸图像得到21个维度的池化特征向量

1.2 在yolo v4应用

在这里插入图片描述
yolo v4 将SPP块置于目标检测之前,具体如下:
在这里插入图片描述
根据输入的特征向量,分别用1/3、1/2、1的核进行池化计算,最终加上原始输入,得到一个sizesize2048的输出向量。

2 PAN-路径聚合网络

【参考资料】https://www.cnblogs.com/AIBigTruth/p/15100810.html
该算法源自2018年的论文《PANet:用于实例分割的路径聚合网络》,PAN是FPN的一种增强。
在这里插入图片描述

2.1 图a - FPN 特征图金字塔网络

【参考资料】https://cloud.tencent.com/developer/article/1546594

该算法源自2017年的论文《Feature Pyramid Networks for Object Detection》

在这里插入图片描述
○ FPN的原理在于通过自低向上,和自定向下两轮操作形成一个融合特征
○ 原始图像通过步长2进行卷积,形成C1、C2、C3、C4和C5 --自低向上
○ 将最终的特征图C5反向*2插值并与下一层C4相加形成P5、P4、P3、P2
○ 最后形成的特种为融合特征,同时包括了不同尺寸的特征

2.2 图b - 自底向上特征融合

在FPN之后增加一次自底向上的特种融合,举例:

● N2拷贝P2
● 对P2进行步长为2 3*3卷积计算,并与P3叠加,形成N3
● 依次类推形成N4和N5

2.3 图c - 自适应特征池化

【参考资料】
https://zhuanlan.zhihu.com/p/85035860
https://www.cnblogs.com/wangyong/p/8523814.html

下属方案都是针对特种图池化的一种策略

2.3.1 ROI Pooling

在这里插入图片描述
● 假设原图大小为800800,网络最后一层的特征为原图的1/32
● 此时存在候选区大小665
665,将665/32取整为20
● 此时候选区在最后一层特征图内为2020
● 假设ROI池化的目标为7
7,则将2020的区域内划分77个池化格,每个池化格大小为20/7取整,为22
● 对49个2
2池化格分别取最大值,最终得到一个7*7的池化输出

2.3.2 ROI Align

在这里插入图片描述

● 假设原图大小为800800,网络最后一层的特征为原图的1/32
● 此时存在候选区大小665
665,将665/32,不取整为 20.78
● 假设ROI池化的目标为77,此时20.78/7为 2.972.97的区域
● 在每个2.97*2.97的区域内取4个点(4为作者测试结果)
● 对这四个点,每个点取其最近的几个点做线性计算,得到最终值

2.3.3 自适应池化

在这里插入图片描述
PAN将不同特种图的自适应池化输出压缩合并到一个一维向量

3 CSP

3.1 CSP原理

【参考资料 】
跨阶段局部网络(CSPNet:Cross Stage Partial Network)
在这里插入图片描述
如图所示,上图是标准Dense Block,下图为CSP机制的改造。即原始输入被分为两部分,一部分保持原始的处理,另外一部分直接叠加到最后一层输出;

3.2 CSPDarknet

CSPDarknet即CSP机制下改造的Darknet,如yolov4中使用的CSPDarknet 53

在这里插入图片描述

4 Mosaic-数据增强

4.1 CutMix 数据增强

在这里插入图片描述
CutMix将两张图进行切割和拼接,以达到增强了对网络提取特征图的能力。对CutMix而言,标签也会被进行融合,比如分别用两张图的30%和70%融合在一起,原始label分别是[1,0][1,0]和[0,1][0,1],则融合label为[0.3,0.7]。

4.2 Mosaic 数据增强

● 读取四张图
● 对四张图进行翻转(对原始图片进行左右的翻转)、缩放(对原始图片进行大小的缩放)、色域变化(对原始图片的明亮度、饱和度、色调进行改变)等操作
● 将四张图分别摆放在四个角
● 对四张图进行拼接,包括原始图数据和目标框
● 最终形成的数据集具备更加丰富的背景结果

在这里插入图片描述

5 SAM-空间注意力机制

5.1 SAM模块

在这里插入图片描述
SAM 会为输入特征图分别应用最大池化和平均池化,从而得到两个特征图集合。其结果会被送入一个卷积层,之后再由一个 sigmoid 函数创建出空间注意力

5.2 在yolo v4修改

在这里插入图片描述

6 其他优化点

6.1 SAT-自对抗训练

SAT是一种新型的图像增强方式,在一个阶段神经网络通过改变原始图像(在原始图像上增加噪声)进行自我攻击,
造成当前图像中没有目标的假象。在下一个阶段在恢复该原图像。

6.2 Mish激活

在这里插入图片描述

6.3 损失函数

【参考资料】https://zhuanlan.zhihu.com/p/331783358

6.4 损失函数

在这里插入图片描述

版权声明:本文为CSDN博主「Fred-XU」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/Fredric_2014/article/details/122703680

Fred-XU

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

GiraffeDet:Heavy Neck的目标检测框架

关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 获取论文:关注并回复“GD” 计算机视觉研究院专栏 作者:Edison_G 在传统的目标检测框架中,从图像识别模型继承的主