首页 » 机器视觉 » 正文

【目标检测】《Objects as Points》论文阅读笔记

2024-05-04 211 0

文章目录[隐藏]

1.摘要
2.介绍
3.相关工作
4.预备知识
5.Objects as Points
6.实验

粗读一遍，主要捡了一些我觉得比较重要的。后续会看看大佬写的，然后重新读下论文，再补充。

1.摘要

通过对预测框的坐标（关键点）进行模拟，训练得到的模型。是一种比较经典的anchor free的检测方法。能够方便的运用到3D定位、方向、甚至是姿态识别中。

2.介绍

介绍中主要说明，这篇文章把检测坐标框的预测，转变为坐标框中心点坐标的预测。较快应用到其他的任务中。而且速度非常快。

并提供其代码：xingyizhou/CenterNet

3.相关工作

（1）区域分类：初期刚出现检测任务时，通过分配较多的候选框，对候选框中的内容进行分类的方式完成目标检测任务，比如RCNN，Fast-RCNN。

（2）预测锚框：由于很多锚框，计算量较大，所以通过预测锚框方式，完成目标检测任务。比如Faster-RCNN，通过一个RPN预测建议框，通过anchor与真实框IoU比值>0.7就是前景，anchor与真实框IoU比值<0.3就是背景。

（3）关键点预测：通过预测关键点，来得到相应的检测框。CornerNet，通过预测左上右下两个坐标点。

（4）单目3D目标检测：主要使用在自动驾驶领域。

4.预备知识

特征图计算如下：

$\widehat{Y} \in \left [ 0,1 \right ]^{\frac{W}{R}\cdot \frac{H}{R}\cdot C}$

其中W*H为图像大小，R是降采样率，C在检测中为分类类别数目。当 $\widehat{Y}= 1$ 时，为被检测关键点；当 $\widehat{Y}= 0$ 时为背景。

训练时，通过focal loss进行优化，（focal loss详解）：

坐标偏置计算的loss函数：

5.Objects as Points

预测尺寸与真实尺寸的loss：

其中L1范数中前者是在真实中心点处预测到的尺寸，后者是真实尺寸。

总损失函数：

其中。

推理时，网络需要预测C+4个值，C表示C个类别的置信度。4分别为，关键点的置信度、坐标偏移量、坐标中心的尺寸长宽。首先先计算通过高斯核8个邻域得到的C类*top100关键点，坐标偏移量以及预测坐标尺寸计算预测坐标：

如图：

6.实验

可以发现CenterNet-DLA时间效率fps比较高。

版权声明：本文为CSDN博主「wait a minute～」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_35975447/article/details/123032351

wait a minute～

我还没有学会写个人说明！

查看作者页面

暂无评论

发表评论取消回复

要发表评论，您必须先登录。

相关推荐

计算机视觉与深度学习 | 基于Faster R-CNN的目标检测（深度学习Matlab代码）

机器视觉 2025-08-13

计算机视觉与深度学习 | 基于Faster R-CNN的目标检测（深度学习Matlab代码）

===================================================== github：https://github.com/MichaelBeechan CSDN：https://blog.csdn.net/

【目标检测】YOLO、SSD、CornerNet原理介绍

机器视觉 2025-08-12

【目标检测】YOLO、SSD、CornerNet原理介绍

目标检测是计算机视觉中比较简单的任务，用来在一张图篇中找到某些特定的物体，目标检测不仅要求我们识别这些物体的种类，同时要求我们标出这些物体的位置。其中类别是离散数据，位置是连续数据。目

目标检测篇之---YOLO系列

机器视觉 2025-08-10

目标检测篇之---YOLO系列

YOLO系列首先先说一下目标检测之one-stage和two-stage网络是什么意思？有什么区别？刚开始看目标检测的时候总能看见单阶段（one-stage）和两阶段（

机器视觉 2025-07-31

分享 | 物体检测和数据集

因为最近学习任务比较紧(但也不妨碍元旦摆烂三天)，所以中间有几个实战Kaggle比赛就跳过了,等以后有时间再回头来看看。物体检测和数据集这一节花了有一天的时间，一直有一个bug困扰，后来改了代码把box