文章目录[隐藏]

一、文章贡献
二、方法概览 overview
- 2.1 Objectives
- 2.2 Network
三、Related work
- 2D Object Detection
- Monocular 3D Object Detection
四、Framework
总结

这是一篇CVPR2018的文章，对于Faster RCNN相关知识暂未深入了解，待之后补充。本文按阅读顺序来进行梳理，有些疑惑待自己理解后再作答。

在这里插入图片描述

一、文章贡献

贡献一种高效的基于多层融合的三维目标检测方法，该方法具有独立的估算视差信息模块（猜测："独立"的意思是可以单独训练；由图可知，视差信息模块可以提供depth信息以达到视差特征+原始RGB图像融合；
提供了一个通用的框架，同时实现2D和3D目标检测，且该框架可以直接通过现有的region-based 2D方法实现扩展；
端到端学习用于估计三维物体的完整姿态、尺寸和位置，不需要任何其他附加注释或三维物体模型；（个人比较喜爱，不需要额外的3D模型进行辅助训练实现特征点捕捉等）
KITTI数据集上实现单目检测SOTA性能，并能在某些特定指标上优于一些基于立体信息(stereo information)的方法。

二、方法概览 overview

2.1 Objectives

2D object detection (类别、box位置、box尺寸)
3D object detection (位置、方向、尺寸)

2.2 Network

结合模型结构图来理解

Region proposal network (RPN)：输入-RGB图像、深度信息的前视图表征，输出-RoIs；
2D detector：输入-2D proposals，输出-object class confidence、2D bounding box (offset)；
orientation&dimension branch：jointly learn
disparity module
3D location：输入-point cloud information、stream，输出-3D location

三、Related work

入门看，若熟知可以直接跳过

2D Object Detection

one-stage methods: YOLO, SSD, OverFeat
two-stage / proposal-driven methods:
- proposal generation: BING, Selective Search, EdgeBoxes, DeepMask, RPN
- the most famous: Faster RCNN, which can generate proposals and apply object recognition in an endto-end fashion

作者谈到 two-stage 方法的优点：比起单阶段算法，它需要更少的数据增强技巧，并且在大多数公共基准测试中具有更准确的结果

Monocular 3D Object Detection

[1] Monocular 3d object detection for autonomous driving
假设所有的物体都应该靠近地平面，而地平面应该与成像平面正交。然后，利用类分割、实例级分割、形状、上下文特征和位置先验，在图像平面上对三维目标候选对象进行全面评分.
[2] 3D Bounding Box Estimation Using Deep Learning and Geometry
Deep3DBox将几何约束引入到三维物体检测场景中。它是基于三维边界盒应该与二维检测边界盒紧密贴合的事实，因此要求二维边界盒的每边至少接触到一个三维盒角的投影。
[3] Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image
使用一个三维车辆数据集，该数据集由具有真实尺寸的三维网格组成，每个三维模型都有几个顶点注释。Deep MANTA中的车辆部件识别视为额外关键点检测，采用该方法与最相似的3D模板进行2D / 3D匹配，从而获得3D定位结果。

四、Framework

所提出的框架是一个端到端网络，以单目图像作为输入，输出2D/3D目标表征。该系统主要包括两个部分:二维区域建议生成和二维/三维参数估计。

3.1 2D region proposal generation

利用Faster R-CNN中引入的区域提议网络(RPN)提取感兴趣区域RoI，以执行进一步的检测任务。在RPN中，通过在卷积特征映射上的一个滑动小网络和锚点机制[31]生成一组具有目标评分的候选区。2D anchors是在每个位置的一个基本矩形上用预定义的尺寸和长宽比生成的。然后网络通过目标评分预测和二维包围框回归输出proposals。

3.2 2D/3D Parameters Estimation

2D: multi-class classification 以及 2D box regression，参考Faster R-CNN
3D: orientation estimation, dimension estimation 以及 3D localization

受Faster R-CNN启发，box regresssion和classification用的是同一共享特征，本文也利用这个共享特征添加两个额外的任务分支：3D orientation regression、3D dimension regression。3D regression通过 Multibin 结构实现，3D dimension regression通过估计长宽高的偏移量实现（在训练集上获得每个类的平均大小作为典型尺寸）。

3.3 Multi-Level Fusion and 3D Localization

Disparity information

使用了MonoDepth网络，并且直接使用了人家的权重，训练中不做任何更新，所以才说是stand-alone，独立于这个模型之外 😃 通过该模块可以计算出3D coordinates.

Estimation Fusion for 3D

Region proposals + Depth => point cloud
point cloud with RoI Mean Pooling + Region proposals with RoI Max Pooling => Fusion

Input Fusion with Front View Feature Maps Encoding

Feature Fusion for Accurate Estimation

总结

文章除了使用多层级融合以外，也借鉴了Faster R-CNN、MultiBin、MonoDepth等多个框架，实现了3D目标检测。

版权声明：本文为CSDN博主「燕策西」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_43543177/article/details/121517011

【文献阅读】Multi-Level Fusion based 3D Object Detection from Monocular Images