Yolo系列学习笔记

Yolov1：2015/6/8
无anchor；
分成77 = 49个区域，每个区域预测2个bbox，输出7730( 25 + 20 )特征层。
使用IOU做confidence；
Loss = loss(bbox) + loss(confidende) + loss(classes);

Yolov2: 2016/12/25
Bn:移除dropout，提升了2% map；
更高分辨率：224224 -> 448448；
Anchor: map:69.5, recall:81% -> map:69.2 recall 88%；
Dimension cluster:k-means 聚类得到相应anchor；
Direct location prediction:将预测目标中心点限制在本区域内，网络更容易收敛；
Fine-Grained Features:1313 与 2626特征融合 PassThroughLayer(H/2, W/2, C*4),深度方向拼接。提高1%map；
Multi-Scale Training:每10个epoch更换一次输入图像尺寸；
Backbone: Darknet19,
Convolutional = Conv2d – BN – LeakyRelU
Output =13 * 13 * (5 + 20) * 5 预测5bbox;

Yolov3: 2018/8/8
Backbone: Darknet53, 同Resnet152相比利用卷积层替代最大池化下采样，卷积核较少->速度快；
Convolutional = Conv + Bn + LeakyReLU;
Output = N * N * [3 *(1 + 4 + 80)] for N = 13, 26, 52；
先直接conv到13 * 13，再上采样回52 * 52，与之前的特征层拼接(在深度维度拼接)；

Loss = L(conf) + L (cls) + L(reg)
L(conf): Binary Cross Entropy,
L(cls): Binary Cross Entropy 二值交叉熵->相互独立，多分类交叉熵->softmax；
L(reg): MSE
Yolov3SPP增强方法：Mosaic图像增强/ DioU替换IoU，CIoU定位损失/ Focal Loss
SPP即3条分支池化：55/ 99/ 13*13以实现多尺度融合

Yolov4: 2020/4/23
BOF：
数据增强：random erase/ cutout/ hide and seek/ grid mask/ mixup/ cutmix/ gan
数据分布：focal loss, 难挖掘

特征图：dropout/ drop connect/ drop block
Bbox 目标函数：MSE/ IoU/ L1, L2 loss/ GIoU/ DIoU/ CioU

BOS:
增大感受野：SPP/ASPP/ RFB
注意力：SE/Spatial Attention Module
特征集成：SFAM/ASFF/BiFPN
激活函数：ReLU/LReLU/ PReLU/ ReLU6/ Scaled ExponentialLinear Unit(SELU)/ Swish/ hard-Swish/ Mish
后处理：soft NMS/ DioU NMS

YoloX: 2021
Focus: 通道扩张
SiLU激活函数
CSPnet结构：残差块套娃

版权声明：本文为CSDN博主「吉良吉影想要平静的生活」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/Tyrol29/article/details/122595370