文章目录[隐藏]
CenterPoint,2021CVPR,刷榜nuScenes和Waymo数据集。
作者是与2D版的CenterNet是同样的,看来是一个组出来的文章。
从网络结构上看,本文就是将CenterNet用到了基于点云的三维目标检测问题上,但本文的出现也证明了,Anchor Free的这种方法应用在基于点云的三维目标检测任务中也是可行的。
Introduction
CenterPoint这篇的Introduction细节地说明了该方法的想法来源。
作者认为,相比于2D目标检测,3D目标检测有以下3个不同:
1)点云更稀疏,在空间中有很多地方是没有点的,也就没有原始特征。
2)3D Box是不与坐标系平行的,起码在xy坐标轴方向是不平行的。不像2D Box,总是一个水平的长方形。
3)3D Box尺寸变化大。(但我认为这个不成问题,2D中的也变化大)
第1点,第3点先按下不说,来说第2点。方向角的存在,使得预先的与坐标轴平行的anchor对于3D box来说就不能说是一个很好的解决方案了。原文中说:“One solution might be to classify a different template (anchor) for each object orientation [58, 59], but this unnecessarily increases the computational burden and may introduce a large number of potential false-positive detections. We argue that the main underlying challenge in linking up the 2D and 3D domains lies in this representation of objects.”
也就是说,使用与坐标轴平行的anchor会带来额外的计算负担和潜在的大量的假阳性的检测:
1)额外计算负担的理解:如果使用anchor,就要对角度也进行枚举,在PV-RCNN中就设置了0度和90度两种anchor,这相当于把某些层的计算量增加了一倍。
2)假阳性的理解:anchor的方向是与坐标轴平行的,如果位置正确,可能与真实的box也有很多的IoU,对于anchor来说是阳性anchor,但对于检测的IoU阈值可能就是阴性。
说明了anchor对于3D并不友好,那就自然引入了用Point来代表Object。这种想法,在STD等Point-based的的detector就出现过。那在voxel-based detector中,其实想法也类似。
那这里就埋下一个疑问:到底point要比anchor好多少?
CenterPoint
该网络是一个两个stage的网络。第一个stage就是3D版的CenterNet,特征金字塔用VoxelNet或者PointPillar构造,然后Detection Head就是CenterNet的头网络。预测每个类的heatmap,box的尺寸,方向,中心点亚像素级的偏移。
第二个阶段,本文提出,使用双线性插值,对得到的中心点插值一个feature,用这个feature来预测objectness和box refinement。objectness是与直接受IoU做监督。
对于Introduction中提到的1)和3),提出了解决方法。对于1)点云更稀疏的问题,文章中加大了高斯核的半径,对于3)尺寸变化大的问题,文中采样预测尺寸的log值。
Experiment
实验也没啥可说的,效果杠杠滴。消融实验对Introduction中的问题添了坑:
可以看到,Center-based的方法,要比anchor好很多。消融实验还做了对本文提出的第二阶段的效果做了验证。
版权声明:本文为CSDN博主「麒麒哈尔」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/wqwqqwqw1231/article/details/117080449
暂无评论