文章目录[隐藏]

YOLO v2:

1、Yolo是将目标识别看做一个回归问题，其实不存在正负例不均衡的问题，之后以loss设置权重是因为使两个样本相对均匀，但也没必要将正负例调节为1:1。（回归问题没有必要将正负例分为1:1）

2、loss设计对于大框和小框不合适，对于小物体检测不好检测。

训练过程中，一定是有GT的中心点坐标，只有当这个中心点的坐标落在cell中心，这个GT才会和该cell与给定的bx进行IOU计算，才会计算loss，其余的在loss中对没有目标的置信度部分有贡献。（Yolo v1最多能给出98个，7x7x2）（小物体检测力度不够：切分网格太粗，IOU设计有问题，loss设计有问题）

YOLO v2:

Yolo v2中有多尺度训练，故他可以对多种尺寸的图像进行检测。对于分类任务来说，目标检测任务的标注更昂贵。在保证分类精度的情况下，更关注提高精度和召回率。

①：所有的卷积层加入BN。效果：收敛上有更大的提升，其余的正则化操作都不需要（例如dropout），mAP提高2%，具有更好的正则化效果。

②：高分辨率的分类器。把分辨率从224x224提升到448x448。（Yolo v1训练是首先使用224x224的图像训练卷积网络，之后再使用448x448的图像去训练连接全连接后的网络）。卷积网络直接接分类器，进行分类的网络。提高4%的mAP。（在v2中先跑10个epoch，这10个epoch是做分类任务。直接接sofmax做分类，分辨率为448x448，分类网络的图像和目标检测的图像分辨率相同，预训练目标与检测是目标相同，所以网络能够更好的学到448x448的图像特征）

③：加入anchor box。Yolo 直接预测bx坐标（相对于cell单元），使用全连接（基于卷积提出来的特征）直接预测。Faster R-CNN是通过9个anchor box预测bx（偏移量是基于anchor box）的。Faster R-CNN中RPN是基于anchor box给出bx的偏移量和置信度（该网络中是物体和不是物体的概率）。因为(RPN)预测是基于卷积层的，所以RPN的预测是基于卷积提出的特征图的(RPN预测偏移量，feature map有多少个值就有多少个锚点) 可以提高召回率。

版权声明：本文为CSDN博主「。七十二。」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/laner__gg/article/details/121001433