粗读一遍,主要捡了一些我觉得比较重要的。后续会看看大佬写的,然后重新读下论文,再补充。
1.摘要
通过对预测框的坐标(关键点)进行模拟,训练得到的模型。是一种比较经典的anchor free的检测方法。能够方便的运用到3D定位、方向、甚至是姿态识别中。
2.介绍
介绍中主要说明,这篇文章把检测坐标框的预测,转变为坐标框中心点坐标的预测。较快应用到其他的任务中。而且速度非常快。
并提供其代码:xingyizhou/CenterNet
3.相关工作
(1)区域分类:初期刚出现检测任务时,通过分配较多的候选框,对候选框中的内容进行分类的方式完成目标检测任务,比如RCNN,Fast-RCNN。
(2)预测锚框:由于很多锚框,计算量较大,所以通过预测锚框方式,完成目标检测任务。比如Faster-RCNN,通过一个RPN预测建议框,通过anchor与真实框IoU比值>0.7就是前景,anchor与真实框IoU比值<0.3就是背景。
(3)关键点预测:通过预测关键点,来得到相应的检测框。CornerNet,通过预测左上右下两个坐标点。
(4)单目3D目标检测:主要使用在自动驾驶领域。
4.预备知识
特征图计算如下:
其中W*H为图像大小,R是降采样率,C在检测中为分类类别数目。当时,为被检测关键点;当时为背景。
训练时,通过focal loss进行优化,(focal loss详解):
坐标偏置计算的loss函数:
5.Objects as Points
预测尺寸与真实尺寸的loss:
其中L1范数中前者是在真实中心点处预测到的尺寸,后者是真实尺寸。
总损失函数:
其中。
推理时,网络需要预测C+4个值,C表示C个类别的置信度。4分别为,关键点的置信度、坐标偏移量、坐标中心的尺寸长宽。首先先计算通过高斯核8个邻域得到的C类*top100关键点,坐标偏移量以及预测坐标尺寸计算预测坐标:
如图:
6.实验
可以发现CenterNet-DLA时间效率fps比较高。
版权声明:本文为CSDN博主「wait a minute~」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_35975447/article/details/123032351
暂无评论