【目标检测】《YOLOv4: Optimal Speed and Accuracy of Object Detection》论文阅读笔记

论文主要是过一遍,记一下我觉得重点的部分,当然也欢迎指正。

1.摘要

主要提到作者用了较多的tricks与一些结构:

(1)Weighted-Residual-Connections (WRC)
(2)Cross-Stage-Partial-connections (CSP) 
(3)Cross mini-Batch Normalization (CmBN)
(4)Self-adversarial-training (SAT) 
(5)Mish-activation
(6)Mosaic data augmentation
(7)DropBlock regularization
(8)CIoU loss

在MS COCO数据集上达到了精度43.5%AP (65.7% AP50),在Tesla v100上达到65FPS的速度。

以及代码地址:https://github.com/AlexeyAB/darknet

2.介绍

作者以推荐系统的例子,以及很多任务需要多张昂贵的GPU显卡来完成。表明自己的检测算法目标:简单、易用、性能好、单卡运行。

贡献:

(1)开发一个高效也性能强的检测算法,在1080单卡就能训练一个很好的模型。

(2)验证了最先进的 "免费袋 "和 "特殊袋 "方法在检测器训练期间对物体检测的影响。免费袋和特殊袋是什么?

(3)通过开发,使得一些tricks能够在单卡上有效的使用。

3.相关工作

针对目标检测领域不同的输入、backbone、neck、head结果等,做了一些总结,看了下,还挺清晰的。

3.1 Bag of freebies

终于在这里找到了bag of freebies的答案。

Bag of freebies:目标检测中能够提高性能,推理时不增加额外的速度消耗时。

(1)数据增强

(2)解决类别不均衡的方法,focal loss、label smoothing、knowledge distillation

(3)解决Bounding Box (BBox) 回归问题,一些损失函数GIoU loss、DIoU loss、CIoU loss等

3.2 Bag of specials

Bag of specials:目标检测中推理成本会有少量的增加,但可以显著提高准确性。

(1)增加感受野:SPP , ASPP , and RFB 。

(2)注意力机制模块:SAM,SE。

(3)特征融合:SFAM , ASFF , and BiFPN .

(4)更好的激活函数:LReLU , PReLU , ReLU6 , Scaled Exponential,Linear Unit (SELU) , Swish , hard-Swish , and Mish。

(5)后处理:nms、DIoU nms。

可以看到这章其实写得很有条理,将本文中后续需要用到的一些结构,通过分析其代价,区分开来。能够更清晰了为后续精度提升、速度提升做准备。

4.方法

先亮一下最重要的部分,YOLOv4使用了下面这些结构与tricks。 

 5.实验性能

作者做了很多消融实验,来验证哪些性能比较好。(在深度学习的tricks里面很多都是这样,一个策略有效可能就是通过多个对比实验发现的,有一部分理论性质的论文就会通过数学理论来进行推导验证)

(1)Bag of Freebies消融实验

(2)Bag of Specials消融实验

(3)不同backbone与预训练模型

 (4)不同batch-size与输入图片大小

6.所有的对比结果

版权声明:本文为CSDN博主「wait a minute~」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_35975447/article/details/123077062

wait a minute~

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

YOLO-V3-SPP详细解析

YOLO-V3-SPP 继前两篇简单的YOLO博文 YOLO-V1 论文理解《You Only Look Once: Unified, Real-Time Object Detection》YOLO-V2论文理解《YOLO9000: Bet

目标检测部署(卡牌识别)

最近在折腾yolov5,训练了一个识别纸牌的模型,最后使用onnxruntime进行部署,感兴趣的可以上github上clone下来玩玩,模型的权重文件上传到了百度网盘,链接

Yolo(3)(项目)Yolo v3 目标检测(85分类)

目录 基础理论 一、 读取文件 二、神经网络初始化 1、搭建神经网络 2、GPU加速 三、打开摄像头、按帧读取图像 四、向神经网络输入 五、获取神经网络输出 1、获取各层名称 2、获取输出层名称 3、获取输出层图像&#xff