【文献阅读】Multi-Level Fusion based 3D Object Detection from Monocular Images

这是一篇CVPR2018的文章,对于Faster RCNN相关知识暂未深入了解,待之后补充。本文按阅读顺序来进行梳理,有些疑惑待自己理解后再作答。


在这里插入图片描述

一、文章贡献

  1. 贡献一种高效的基于多层融合的三维目标检测方法,该方法具有独立的估算视差信息模块(猜测:"独立"的意思是可以单独训练;由图可知,视差信息模块可以提供depth信息以达到视差特征+原始RGB图像融合;
  2. 提供了一个通用的框架,同时实现2D和3D目标检测,且该框架可以直接通过现有的region-based 2D方法实现扩展;
  3. 端到端学习用于估计三维物体的完整姿态、尺寸和位置,不需要任何其他附加注释或三维物体模型;(个人比较喜爱,不需要额外的3D模型进行辅助训练实现特征点捕捉等)
  4. KITTI数据集上实现单目检测SOTA性能,并能在某些特定指标上优于一些基于立体信息(stereo information)的方法。

二、方法概览 overview

2.1 Objectives

  • 2D object detection (类别、box位置、box尺寸)
  • 3D object detection (位置、方向、尺寸)

2.2 Network

结合模型结构图来理解

  • Region proposal network (RPN):输入-RGB图像、深度信息的前视图表征,输出-RoIs;
  • 2D detector:输入-2D proposals,输出-object class confidence、2D bounding box (offset);
  • orientation&dimension branch:jointly learn
  • disparity module
  • 3D location:输入-point cloud information、stream,输出-3D location

三、Related work

入门看,若熟知可以直接跳过

2D Object Detection

  • one-stage methods: YOLO, SSD, OverFeat
  • two-stage / proposal-driven methods:
    • proposal generation: BING, Selective Search, EdgeBoxes, DeepMask, RPN
    • the most famous: Faster RCNN, which can generate proposals and apply object recognition in an endto-end fashion

作者谈到 two-stage 方法的优点:比起单阶段算法,它需要更少的数据增强技巧,并且在大多数公共基准测试中具有更准确的结果

Monocular 3D Object Detection

[1] Monocular 3d object detection for autonomous driving
假设所有的物体都应该靠近地平面,而地平面应该与成像平面正交。然后,利用类分割、实例级分割、形状、上下文特征和位置先验,在图像平面上对三维目标候选对象进行全面评分.
[2] 3D Bounding Box Estimation Using Deep Learning and Geometry
Deep3DBox将几何约束引入到三维物体检测场景中。它是基于三维边界盒应该与二维检测边界盒紧密贴合的事实,因此要求二维边界盒的每边至少接触到一个三维盒角的投影。
[3] Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image
使用一个三维车辆数据集,该数据集由具有真实尺寸的三维网格组成,每个三维模型都有几个顶点注释。Deep MANTA中的车辆部件识别视为额外关键点检测,采用该方法与最相似的3D模板进行2D / 3D匹配,从而获得3D定位结果。

四、Framework

所提出的框架是一个端到端网络,以单目图像作为输入,输出2D/3D目标表征。该系统主要包括两个部分:二维区域建议生成和二维/三维参数估计。

3.1 2D region proposal generation

利用Faster R-CNN中引入的区域提议网络(RPN)提取感兴趣区域RoI,以执行进一步的检测任务。在RPN中,通过在卷积特征映射上的一个滑动小网络和锚点机制[31]生成一组具有目标评分的候选区。2D anchors是在每个位置的一个基本矩形上用预定义的尺寸和长宽比生成的。然后网络通过目标评分预测和二维包围框回归输出proposals。

3.2 2D/3D Parameters Estimation

2D: multi-class classification 以及 2D box regression,参考Faster R-CNN
3D: orientation estimation, dimension estimation 以及 3D localization

受Faster R-CNN启发,box regresssion和classification用的是同一共享特征,本文也利用这个共享特征添加两个额外的任务分支:3D orientation regression、3D dimension regression。3D regression通过 Multibin 结构实现,3D dimension regression通过估计长宽高的偏移量实现(在训练集上获得每个类的平均大小作为典型尺寸)。

3.3 Multi-Level Fusion and 3D Localization

Disparity information

使用了MonoDepth网络,并且直接使用了人家的权重,训练中不做任何更新,所以才说是stand-alone,独立于这个模型之外 😃 通过该模块可以计算出3D coordinates.

Estimation Fusion for 3D

  • Region proposals + Depth => point cloud
  • point cloud with RoI Mean Pooling + Region proposals with RoI Max Pooling => Fusion

Input Fusion with Front View Feature Maps Encoding

Feature Fusion for Accurate Estimation

总结

文章除了使用多层级融合以外,也借鉴了Faster R-CNN、MultiBin、MonoDepth等多个框架,实现了3D目标检测。

版权声明:本文为CSDN博主「燕策西」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_43543177/article/details/121517011

燕策西

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

Lidar Object detection

3d object detection的一般的pipeline Anchor based vs Center based RPN 当前比较流行的3d目标检测pipeline,或是通过pillar,对3d点云进行编码