【目标检测】《Objects as Points》论文阅读笔记

粗读一遍,主要捡了一些我觉得比较重要的。后续会看看大佬写的,然后重新读下论文,再补充。

1.摘要

通过对预测框的坐标(关键点)进行模拟,训练得到的模型。是一种比较经典的anchor free的检测方法。能够方便的运用到3D定位、方向、甚至是姿态识别中。

2.介绍

介绍中主要说明,这篇文章把检测坐标框的预测,转变为坐标框中心点坐标的预测。较快应用到其他的任务中。而且速度非常快。

并提供其代码:xingyizhou/CenterNet

3.相关工作

(1)区域分类:初期刚出现检测任务时,通过分配较多的候选框,对候选框中的内容进行分类的方式完成目标检测任务,比如RCNN,Fast-RCNN。

(2)预测锚框:由于很多锚框,计算量较大,所以通过预测锚框方式,完成目标检测任务。比如Faster-RCNN,通过一个RPN预测建议框,通过anchor与真实框IoU比值>0.7就是前景,anchor与真实框IoU比值<0.3就是背景。

(3)关键点预测:通过预测关键点,来得到相应的检测框。CornerNet,通过预测左上右下两个坐标点。

(4)单目3D目标检测:主要使用在自动驾驶领域。

4.预备知识

特征图计算如下:

\widehat{Y} \in \left [ 0,1 \right ]^{\frac{W}{R}\cdot \frac{H}{R}\cdot C}

其中W*H为图像大小,R是降采样率,C在检测中为分类类别数目。当\widehat{Y}= 1时,为被检测关键点;当\widehat{Y}= 0时为背景。

训练时,通过focal loss进行优化,(focal loss详解):

 坐标偏置计算的loss函数:

5.Objects as Points

预测尺寸与真实尺寸的loss:

其中L1范数中前者是在真实中心点处预测到的尺寸,后者是真实尺寸。

总损失函数:

其中

推理时,网络需要预测C+4个值,C表示C个类别的置信度。4分别为,关键点的置信度、坐标偏移量、坐标中心的尺寸长宽。首先先计算通过高斯核8个邻域得到的C类*top100关键点,坐标偏移量以及预测坐标尺寸计算预测坐标:

 如图:

6.实验

 可以发现CenterNet-DLA时间效率fps比较高。

版权声明:本文为CSDN博主「wait a minute~」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_35975447/article/details/123032351

wait a minute~

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

yolo-fastest模型

两个关于yolo-fastest的资料 https://github.com/dog-qiuqiu/Yolo-FastestV2/ https://github.com/dog-qiuqiu/Yolo-Fastest

手把手教你实现YOLOv3 (一)

1. 引言 最近整理了YOLO系列相关论文阅读笔记,发现仅仅靠阅读论文还是有很多内容一知半解,吃得不是很透彻. 尽管网络上有很多博客都在讲解,但是很多实现细节细究起来还是有些困难. 俗话说的好: Talk is cheap. Show me

目标检测入坑指南3:VGGNet神经网络

学了蛮久的目标检测了,但是有好多细节总是忘或者模棱两可,感觉有必要写博客记录一下学习笔记和一些心得,既可以加深印象又可以方便他人。博客内容集成自各大学习资源,所以图片也就不加水印了&#xf

Yolov3代码实现

voc数据集构建文件 import sys import xml.etree.ElementTree as ET import config.yolov3_config_voc as cfg import os from tqdm impor