单目3D目标检测算法对自动驾驶领域非常重要,SMOKE是2021年CVPR workshop的文章,精度在kitti上排名前列,能实现实时推理,且代码开源,最近也被baidu apollo7.0集成到了感知模块,非常值得学习!
paper: https://openaccess.thecvf.com/content_CVPRW_2020/html/w60/Liu_SMOKE_Single-Stage_Monocular_3D_Object_Detection_via_Keypoint_Estimation_CVPRW_2020_paper.htmlhttps://openaccess.thecvf.com/content_CVPRW_2020/html/w60/Liu_SMOKE_Single-Stage_Monocular_3D_Object_Detection_via_Keypoint_Estimation_CVPRW_2020_paper.html代码:https://github.com/lzccccc/SMOKE
https://github.com/lzccccc/SMOKE
精度对比(截止2022.01):
(KITTI Cars Moderate Benchmark (Monocular 3D Object Detection) | Papers With Code)
主要观点和贡献:
1. 认为检测2D框会给3D检测带来噪声,是冗余的,所以用Keypoint的方式直接回归3D框;
实现方式:
a. backbone: 基于DLA-34进行改造, 用了DCN和GN进行改造;
b. head:
关键点分支:每个类别一层;
3d box: 预测, 其中:
c. loss:
关键点分支:penalty-reduced focal loss:
3d box 分支:
把预测的三个量分为三组(比如中心点, 尺寸, yaw,具体我要看一下代码);
每组中其余的值用gt, 然后再转换成3d框的8个点,在放到L_reg中;
目的应该是把预测的量解耦,降低预测难度;
文中提到的一些比较有价值的参考文献(个人认为):
(2019 iccv) Disentangling Monocular 3D Object Detection
(2019 cvpr) ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Shape
版权声明:本文为CSDN博主「chaoqinyou」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/chaoqinyou/article/details/122357395
暂无评论