【目标检测】《Objects as Points》论文阅读笔记

粗读一遍,主要捡了一些我觉得比较重要的。后续会看看大佬写的,然后重新读下论文,再补充。

1.摘要

通过对预测框的坐标(关键点)进行模拟,训练得到的模型。是一种比较经典的anchor free的检测方法。能够方便的运用到3D定位、方向、甚至是姿态识别中。

2.介绍

介绍中主要说明,这篇文章把检测坐标框的预测,转变为坐标框中心点坐标的预测。较快应用到其他的任务中。而且速度非常快。

并提供其代码:xingyizhou/CenterNet

3.相关工作

(1)区域分类:初期刚出现检测任务时,通过分配较多的候选框,对候选框中的内容进行分类的方式完成目标检测任务,比如RCNN,Fast-RCNN。

(2)预测锚框:由于很多锚框,计算量较大,所以通过预测锚框方式,完成目标检测任务。比如Faster-RCNN,通过一个RPN预测建议框,通过anchor与真实框IoU比值>0.7就是前景,anchor与真实框IoU比值<0.3就是背景。

(3)关键点预测:通过预测关键点,来得到相应的检测框。CornerNet,通过预测左上右下两个坐标点。

(4)单目3D目标检测:主要使用在自动驾驶领域。

4.预备知识

特征图计算如下:

\widehat{Y} \in \left [ 0,1 \right ]^{\frac{W}{R}\cdot \frac{H}{R}\cdot C}

其中W*H为图像大小,R是降采样率,C在检测中为分类类别数目。当\widehat{Y}= 1时,为被检测关键点;当\widehat{Y}= 0时为背景。

训练时,通过focal loss进行优化,(focal loss详解):

 坐标偏置计算的loss函数:

5.Objects as Points

预测尺寸与真实尺寸的loss:

其中L1范数中前者是在真实中心点处预测到的尺寸,后者是真实尺寸。

总损失函数:

其中

推理时,网络需要预测C+4个值,C表示C个类别的置信度。4分别为,关键点的置信度、坐标偏移量、坐标中心的尺寸长宽。首先先计算通过高斯核8个邻域得到的C类*top100关键点,坐标偏移量以及预测坐标尺寸计算预测坐标:

 如图:

6.实验

 可以发现CenterNet-DLA时间效率fps比较高。

版权声明:本文为CSDN博主「wait a minute~」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_35975447/article/details/123032351

wait a minute~

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

FPN 特征金字塔 理解

Feature Pyramid Networks 对于Faster Rcnn使用FPN,cocoAP提升2.3个点,pascalAP提升3.8个点 1*1的conv,调整通道数,原论文中

非极大值抑制 (Non-Maximum Suppression, NMS)

NMS 基本过程 当前的物体检测算法为了保证召回率,对于同一个真实物体往往会有多于 1 个的候选框输出。由于多余的候选框会影响检测精度,因此需要利用 NMS 过滤掉重叠的候选框,得到最佳的预测输出