YOLOv3 笔记

文章目录[隐藏]

Backbone 骨干网络 Darknet-53
网络架构
损失函数
江大白（知乎）

Backbone 骨干网络 Darknet-53

网络架构

输入的是 416×416×3，输出三个尺度的 feature map，分别是 13×13×255，26×26×255，52×52×255，255 为 3×85，即每一个 grid cell 生成三个 anchor，而每一个 anchor 对应一个预测框，每一个预测框又有 5+80，5 为 x,y,w,h,c（c 为有物体的概率），80 为数据集条件类别概率。输入的是 416×416×3，分别对应 13×13（下采样 32 倍）的 grid cell，每一个 grid cell 有三个anchor，13×13的感受野在对应原图上的感受野就是 32×32，就是每一个 grid cell 代表原图上 32×32 的区域，预测大物体；26×26（下采样 16 倍）的 grid cell，每一个 grid cell 有三个anchor...预测中等物体；52×52（下采样 8 倍）的 grid cell，每一个 grid cell 有三个anchor...预测小物体。

既发挥了深层网络的语义特化抽象的特征，也充分利用了浅层网络的细粒度的像素级别的边缘转角和结构信息的低层特征，通过该结构，可以实现多尺度的特征融合和不同尺度物体的预测。

浅层学习到的是边缘形状转角斑块颜色等底层的细粒度信息，深层学习到的是各种纹理眼睛腿汽车等抽象特化的语义信息。

backbone 骨干网络提取特征，neck 颈部网络用于汇总不同尺度融合不同尺度的特征（FPN），输出层 head 来获得各个尺度的目标检测的预测结果，输出的结果包含在蓝色的块里。

darknet 骨干网络，全卷积网络，可以兼容任意尺度的输入，我们就可以输入 32 倍数的任意尺度的图像。

输入的图像越大，最终获得的 3 个尺度的 grid cell 也越大，预测框的数量就是 grid cell的数量 ×3，即预测框的数量也增大。

损失函数

如果一个 anchor 它和 ground truth 的 IoU 最大，那么它就是正样本；如果它和 ground truth 有一部分 IoU，即高于某个阈值，就忽略它们；如果小于某个阈值，则就是负样本。

confidence 就是 objectness×类别条件概率。nms 把那些同一个物体重复预测的框来替掉，这里也有 IoU 阈值，就是说把高于某个阈值的重复的框，把低置信度的框去掉，保留最高置信度的框，即 nms 非极大值抑制。

江大白（知乎）

将网络分成 4 个部分，第一部分是网络的输入端，这里采用的是 416×416 大小的彩色图片，所以输入的矩阵是 416×416×3。第二部分是主干网络，用于提取图像的网络结构特征，每个 Res 结构中，因为第一个卷积层，步长为 2，所以具有下采样的作用。故在主干网络中，每经过一个 Res 结构，特征图矩阵尺寸的变化，如经过第一个 Res1，416×416 大小的矩阵长宽都缩小一半，变成了 208×208 大小。经过主干网络层层提取，网络的特征图尺寸，也在不断减少。第三部分 neck 结构，将主干网络提取的特征，进一步融合，最后通过输出层，进行输出。

版权声明：本文为CSDN博主「浪里蛟龙」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_44227733/article/details/122840611