文章目录[隐藏]
这是一篇CVPR2018的文章,对于Faster RCNN相关知识暂未深入了解,待之后补充。本文按阅读顺序来进行梳理,有些疑惑待自己理解后再作答。
一、文章贡献
- 贡献一种高效的基于多层融合的三维目标检测方法,该方法具有
独立的
估算视差信息模块(猜测:"独立"的意思是可以单独训练;由图可知,视差信息模块可以提供depth信息以达到视差特征+原始RGB图像融合; - 提供了一个通用的框架,同时实现2D和3D目标检测,且该框架可以直接通过现有的region-based 2D方法实现扩展;
- 端到端学习用于估计三维物体的完整姿态、尺寸和位置,不需要任何其他附加注释或三维物体模型;(个人比较喜爱,不需要额外的3D模型进行辅助训练实现特征点捕捉等)
- KITTI数据集上实现单目检测SOTA性能,并能在某些特定指标上优于一些基于立体信息(stereo information)的方法。
二、方法概览 overview
2.1 Objectives
- 2D object detection (类别、box位置、box尺寸)
- 3D object detection (位置、方向、尺寸)
2.2 Network
结合模型结构图来理解
- Region proposal network (RPN):输入-RGB图像、深度信息的前视图表征,输出-RoIs;
- 2D detector:输入-2D proposals,输出-object class confidence、2D bounding box (offset);
- orientation&dimension branch:jointly learn
- disparity module
- 3D location:输入-point cloud information、stream,输出-3D location
三、Related work
入门看,若熟知可以直接跳过
2D Object Detection
- one-stage methods: YOLO, SSD, OverFeat
- two-stage / proposal-driven methods:
- proposal generation: BING, Selective Search, EdgeBoxes, DeepMask, RPN
- the most famous: Faster RCNN, which can generate proposals and apply object recognition in an endto-end fashion
作者谈到 two-stage 方法的优点:比起单阶段算法,它需要更少的数据增强技巧,并且在大多数公共基准测试中具有更准确的结果
Monocular 3D Object Detection
[1] Monocular 3d object detection for autonomous driving
假设所有的物体都应该靠近地平面,而地平面应该与成像平面正交。然后,利用类分割、实例级分割、形状、上下文特征和位置先验,在图像平面上对三维目标候选对象进行全面评分.
[2] 3D Bounding Box Estimation Using Deep Learning and Geometry
Deep3DBox将几何约束引入到三维物体检测场景中。它是基于三维边界盒应该与二维检测边界盒紧密贴合的事实,因此要求二维边界盒的每边至少接触到一个三维盒角的投影。
[3] Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image
使用一个三维车辆数据集,该数据集由具有真实尺寸的三维网格组成,每个三维模型都有几个顶点注释。Deep MANTA中的车辆部件识别视为额外关键点检测,采用该方法与最相似的3D模板进行2D / 3D匹配,从而获得3D定位结果。
四、Framework
所提出的框架是一个端到端网络,以单目图像作为输入,输出2D/3D目标表征。该系统主要包括两个部分:二维区域建议生成和二维/三维参数估计。
3.1 2D region proposal generation
利用Faster R-CNN中引入的区域提议网络(RPN)提取感兴趣区域RoI,以执行进一步的检测任务。在RPN中,通过在卷积特征映射上的一个滑动小网络和锚点机制[31]生成一组具有目标评分的候选区。2D anchors是在每个位置的一个基本矩形上用预定义的尺寸和长宽比生成的。然后网络通过目标评分预测和二维包围框回归输出proposals。
3.2 2D/3D Parameters Estimation
2D: multi-class classification 以及 2D box regression,参考Faster R-CNN
3D: orientation estimation, dimension estimation 以及 3D localization
受Faster R-CNN启发,box regresssion和classification用的是同一共享特征,本文也利用这个共享特征添加两个额外的任务分支:3D orientation regression、3D dimension regression。3D regression通过 Multibin 结构实现,3D dimension regression通过估计长宽高的偏移量实现(在训练集上获得每个类的平均大小作为典型尺寸)。
3.3 Multi-Level Fusion and 3D Localization
Disparity information
使用了MonoDepth网络,并且直接使用了人家的权重,训练中不做任何更新,所以才说是stand-alone,独立于这个模型之外 😃 通过该模块可以计算出3D coordinates.
Estimation Fusion for 3D
- Region proposals + Depth => point cloud
- point cloud with RoI Mean Pooling + Region proposals with RoI Max Pooling => Fusion
Input Fusion with Front View Feature Maps Encoding
Feature Fusion for Accurate Estimation
总结
文章除了使用多层级融合以外,也借鉴了Faster R-CNN、MultiBin、MonoDepth等多个框架,实现了3D目标检测。
版权声明:本文为CSDN博主「燕策西」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_43543177/article/details/121517011
暂无评论