YOLOv3

文章目录[隐藏]

YOLOv3

1. YOLOv3效果

1.1 COCO AP

YOLOv3速度最快，但准确率不是很高

COCO数据集的一些指标含义

其中 AP指，IoU从0.5开始，以0.05为步距，直到0.95的所有AP IoU的均值

1.2 COCO AP IOU=0.5

1.3 YOLOv3的BackBone为DarkNet-53（53个卷积层）

1.3.1 取消Max Pooling层，通过卷积层的步距设计实现下采样，这样做可能是提升准确率的原因。

1.3.2 DarkNet-53相比于ResNet的卷积核个数少，训练参数少，所以训练速度更快。

1.3.3 Convolutional层包括ConvLayer -> BN -> LeakyReLU

因为BN的1存在，卷积层中无偏置参数

1.3.4 上图每个方块都是一个残差结构（有何作用？）

2. YOLOv3结构

2.1 使用k-means聚类来确定bounding box，YOLOv3预测三个不同尺度的boxes，使用特征金字塔网络来提取这些对于尺度boxes的特征。

在COCO数据集上，对于每个尺度预测三个boxes，张量为N * N * [ 3 * ( 4 + 1 + 80 ) ]

80为类的个数，4为位置信息，1为confidence，N * N指对提取到的特征的每个像素都要预测

2.2 结构

三个预测输出分别对应不同尺度的检测目标，预测输出1用来预测相对较大的目标，预测输出2用来预测中等大小的目标，预测输出3用来预测小目标，其中2和3之所以有预测较小目标的能力，一个是因为进行了上采样（How?）,二是因为结构中融合了先前的特征，通道数增多，或者说上采样的目的就是为了融合之前的像素较高的特征，2中为26 *26，3中为52 * 52。

3. 目标边界框的预测

锚框参数为c~x~,c~y~,p~w~,p~h~网络预测四个边界参数t~x~,t~y~,t~w~,t~h~,从一个cell的左上角来偏移，cell左上角的的坐标为（c~x~,c~y~），初始预测框长宽为p~w~,p~h~,那么预测值如下：