【目标检测07】yolo v4 笔记

【参考资料】
【1】https://zhuanlan.zhihu.com/p/137393450
【2】https://www.cnblogs.com/wujianming-110117/p/13023126.html
【3】https://www.jianshu.com/p/639f9ecc1328
【4】https://blog.csdn.net/qq_28168421/article/details/107398830
【5】https://blog.csdn.net/wjinjie/article/details/110168593
【6】https://blog.csdn.net/jesse_mx/article/details/54588085

1 SPP-空间金字塔池化层

1.1 原理

   SPP 依据2014年论文《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》

在这里插入图片描述

● 将原始图像分为44个子图，针对每个子图计算最大池化值，得到 16个特征
● 将原始图像分为22个子图，针对每个子图计算最大池化值，得到4个特征
● 将原始图像作为输入计算最大池化值，得到1个特征
● 综合上述计算，任意尺寸图像得到21个维度的池化特征向量

1.2 在yolo v4应用

在这里插入图片描述
yolo v4 将SPP块置于目标检测之前，具体如下：

根据输入的特征向量，分别用1/3、1/2、1的核进行池化计算，最终加上原始输入，得到一个sizesize2048的输出向量。

2 PAN-路径聚合网络

【参考资料】https://www.cnblogs.com/AIBigTruth/p/15100810.html
该算法源自2018年的论文《PANet：用于实例分割的路径聚合网络》，PAN是FPN的一种增强。
在这里插入图片描述

2.1 图a - FPN 特征图金字塔网络

【参考资料】https://cloud.tencent.com/developer/article/1546594

该算法源自2017年的论文《Feature Pyramid Networks for Object Detection》

在这里插入图片描述
○ FPN的原理在于通过自低向上，和自定向下两轮操作形成一个融合特征
○ 原始图像通过步长2进行卷积，形成C1、C2、C3、C4和C5 --自低向上
○ 将最终的特征图C5反向*2插值并与下一层C4相加形成P5、P4、P3、P2
○ 最后形成的特种为融合特征，同时包括了不同尺寸的特征

2.2 图b - 自底向上特征融合

在FPN之后增加一次自底向上的特种融合，举例：

● N2拷贝P2
● 对P2进行步长为2 3*3卷积计算，并与P3叠加，形成N3
● 依次类推形成N4和N5

2.3 图c - 自适应特征池化

【参考资料】
https://zhuanlan.zhihu.com/p/85035860
https://www.cnblogs.com/wangyong/p/8523814.html

下属方案都是针对特种图池化的一种策略

2.3.1 ROI Pooling

在这里插入图片描述
● 假设原图大小为800800，网络最后一层的特征为原图的1/32
● 此时存在候选区大小665665,将665/32取整为20
● 此时候选区在最后一层特征图内为2020
● 假设ROI池化的目标为77,则将2020的区域内划分77个池化格，每个池化格大小为20/7取整，为22
● 对49个22池化格分别取最大值，最终得到一个7*7的池化输出

2.3.2 ROI Align

在这里插入图片描述

● 假设原图大小为800800,网络最后一层的特征为原图的1/32
● 此时存在候选区大小665665,将665/32，不取整为 20.78
● 假设ROI池化的目标为77，此时20.78/7为 2.972.97的区域
● 在每个2.97*2.97的区域内取4个点（4为作者测试结果）
● 对这四个点，每个点取其最近的几个点做线性计算，得到最终值

2.3.3 自适应池化

在这里插入图片描述
PAN将不同特种图的自适应池化输出压缩合并到一个一维向量

3 CSP

3.1 CSP原理

【参考资料】
跨阶段局部网络（CSPNet：Cross Stage Partial Network）
在这里插入图片描述
如图所示，上图是标准Dense Block，下图为CSP机制的改造。即原始输入被分为两部分，一部分保持原始的处理，另外一部分直接叠加到最后一层输出；

3.2 CSPDarknet

CSPDarknet即CSP机制下改造的Darknet，如yolov4中使用的CSPDarknet 53

在这里插入图片描述

4 Mosaic-数据增强

4.1 CutMix 数据增强

在这里插入图片描述
CutMix将两张图进行切割和拼接，以达到增强了对网络提取特征图的能力。对CutMix而言，标签也会被进行融合，比如分别用两张图的30%和70%融合在一起，原始label分别是[1,0][1,0]和[0,1][0,1]，则融合label为[0.3,0.7]。

4.2 Mosaic 数据增强

● 读取四张图
● 对四张图进行翻转（对原始图片进行左右的翻转）、缩放（对原始图片进行大小的缩放）、色域变化（对原始图片的明亮度、饱和度、色调进行改变）等操作
● 将四张图分别摆放在四个角
● 对四张图进行拼接，包括原始图数据和目标框
● 最终形成的数据集具备更加丰富的背景结果

在这里插入图片描述

5 SAM-空间注意力机制

5.1 SAM模块

在这里插入图片描述
SAM 会为输入特征图分别应用最大池化和平均池化，从而得到两个特征图集合。其结果会被送入一个卷积层，之后再由一个 sigmoid 函数创建出空间注意力

5.2 在yolo v4修改

在这里插入图片描述

6 其他优化点

6.1 SAT-自对抗训练

SAT是一种新型的图像增强方式，在一个阶段神经网络通过改变原始图像（在原始图像上增加噪声）进行自我攻击，
造成当前图像中没有目标的假象。在下一个阶段在恢复该原图像。

6.2 Mish激活

在这里插入图片描述

6.3 损失函数

【参考资料】https://zhuanlan.zhihu.com/p/331783358

6.4 损失函数

在这里插入图片描述

版权声明：本文为CSDN博主「Fred-XU」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/Fredric_2014/article/details/122703680

1 SPP-空间金字塔池化层

1.1 原理

1.2 在yolo v4应用

2 PAN-路径聚合网络

2.1 图a - FPN 特征图金字塔网络

2.2 图b - 自底向上特征融合

2.3 图c - 自适应特征池化

2.3.1 ROI Pooling

2.3.2 ROI Align

2.3.3 自适应池化

3 CSP

3.1 CSP原理

3.2 CSPDarknet

4 Mosaic-数据增强

4.1 CutMix 数据增强

4.2 Mosaic 数据增强

5 SAM-空间注意力机制

5.1 SAM模块

5.2 在yolo v4修改

6 其他优化点

6.1 SAT-自对抗训练

6.2 Mish激活

6.3 损失函数

6.4 损失函数

【论文阅读】【三维目标检测】在Range view上做3D目标检测

遥感旋转目标检测模型：R3Det 实验记录

Fred-XU

暂无评论

发表评论取消回复

1 SPP-空间金字塔池化层

1.1 原理

1.2 在yolo v4应用

2 PAN-路径聚合网络

2.1 图a - FPN 特征图金字塔网络

2.2 图b - 自底向上特征融合

2.3 图c - 自适应特征池化

2.3.1 ROI Pooling

2.3.2 ROI Align

2.3.3 自适应池化

3 CSP

3.1 CSP原理

3.2 CSPDarknet

4 Mosaic-数据增强

4.1 CutMix 数据增强

4.2 Mosaic 数据增强

5 SAM-空间注意力机制

5.1 SAM模块

5.2 在yolo v4修改

6 其他优化点

6.1 SAT-自对抗训练

6.2 Mish激活

6.3 损失函数

6.4 损失函数

【论文阅读】【三维目标检测】在Range view上做3D目标检测

遥感旋转目标检测模型：R3Det 实验记录

Fred-XU

暂无评论

发表评论 取消回复

相关推荐

发表评论取消回复