【参考资料】
【1】https://zhuanlan.zhihu.com/p/137393450
【2】https://www.cnblogs.com/wujianming-110117/p/13023126.html
【3】https://www.jianshu.com/p/639f9ecc1328
【4】https://blog.csdn.net/qq_28168421/article/details/107398830
【5】https://blog.csdn.net/wjinjie/article/details/110168593
【6】https://blog.csdn.net/jesse_mx/article/details/54588085
1 SPP-空间金字塔池化层
1.1 原理
SPP 依据2014年论文《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》
● 将原始图像分为44个子图,针对每个子图计算最大池化值,得到 16个特征
● 将原始图像分为22个子图,针对每个子图计算最大池化值,得到4个特征
● 将原始图像作为输入计算最大池化值,得到1个特征
● 综合上述计算,任意尺寸图像得到21个维度的池化特征向量
1.2 在yolo v4应用
yolo v4 将SPP块置于目标检测之前,具体如下:
根据输入的特征向量,分别用1/3、1/2、1的核进行池化计算,最终加上原始输入,得到一个sizesize2048的输出向量。
2 PAN-路径聚合网络
【参考资料】https://www.cnblogs.com/AIBigTruth/p/15100810.html
该算法源自2018年的论文《PANet:用于实例分割的路径聚合网络》,PAN是FPN的一种增强。
2.1 图a - FPN 特征图金字塔网络
【参考资料】https://cloud.tencent.com/developer/article/1546594
该算法源自2017年的论文《Feature Pyramid Networks for Object Detection》
○ FPN的原理在于通过自低向上,和自定向下两轮操作形成一个融合特征
○ 原始图像通过步长2进行卷积,形成C1、C2、C3、C4和C5 --自低向上
○ 将最终的特征图C5反向*2插值并与下一层C4相加形成P5、P4、P3、P2
○ 最后形成的特种为融合特征,同时包括了不同尺寸的特征
2.2 图b - 自底向上特征融合
在FPN之后增加一次自底向上的特种融合,举例:
● N2拷贝P2
● 对P2进行步长为2 3*3卷积计算,并与P3叠加,形成N3
● 依次类推形成N4和N5
2.3 图c - 自适应特征池化
【参考资料】
https://zhuanlan.zhihu.com/p/85035860
https://www.cnblogs.com/wangyong/p/8523814.html
下属方案都是针对特种图池化的一种策略
2.3.1 ROI Pooling
● 假设原图大小为800800,网络最后一层的特征为原图的1/32
● 此时存在候选区大小665665,将665/32取整为20
● 此时候选区在最后一层特征图内为2020
● 假设ROI池化的目标为77,则将2020的区域内划分77个池化格,每个池化格大小为20/7取整,为22
● 对49个22池化格分别取最大值,最终得到一个7*7的池化输出
2.3.2 ROI Align
● 假设原图大小为800800,网络最后一层的特征为原图的1/32
● 此时存在候选区大小665665,将665/32,不取整为 20.78
● 假设ROI池化的目标为77,此时20.78/7为 2.972.97的区域
● 在每个2.97*2.97的区域内取4个点(4为作者测试结果)
● 对这四个点,每个点取其最近的几个点做线性计算,得到最终值
2.3.3 自适应池化
PAN将不同特种图的自适应池化输出压缩合并到一个一维向量
3 CSP
3.1 CSP原理
【参考资料 】
跨阶段局部网络(CSPNet:Cross Stage Partial Network)
如图所示,上图是标准Dense Block,下图为CSP机制的改造。即原始输入被分为两部分,一部分保持原始的处理,另外一部分直接叠加到最后一层输出;
3.2 CSPDarknet
CSPDarknet即CSP机制下改造的Darknet,如yolov4中使用的CSPDarknet 53
4 Mosaic-数据增强
4.1 CutMix 数据增强
CutMix将两张图进行切割和拼接,以达到增强了对网络提取特征图的能力。对CutMix而言,标签也会被进行融合,比如分别用两张图的30%和70%融合在一起,原始label分别是[1,0][1,0]和[0,1][0,1],则融合label为[0.3,0.7]。
4.2 Mosaic 数据增强
● 读取四张图
● 对四张图进行翻转(对原始图片进行左右的翻转)、缩放(对原始图片进行大小的缩放)、色域变化(对原始图片的明亮度、饱和度、色调进行改变)等操作
● 将四张图分别摆放在四个角
● 对四张图进行拼接,包括原始图数据和目标框
● 最终形成的数据集具备更加丰富的背景结果
5 SAM-空间注意力机制
5.1 SAM模块
SAM 会为输入特征图分别应用最大池化和平均池化,从而得到两个特征图集合。其结果会被送入一个卷积层,之后再由一个 sigmoid 函数创建出空间注意力
5.2 在yolo v4修改
6 其他优化点
6.1 SAT-自对抗训练
SAT是一种新型的图像增强方式,在一个阶段神经网络通过改变原始图像(在原始图像上增加噪声)进行自我攻击,
造成当前图像中没有目标的假象。在下一个阶段在恢复该原图像。
6.2 Mish激活
6.3 损失函数
【参考资料】https://zhuanlan.zhihu.com/p/331783358
6.4 损失函数
版权声明:本文为CSDN博主「Fred-XU」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/Fredric_2014/article/details/122703680
暂无评论