自动驾驶中的三维目标检测综述

点云PCL免费知识星球，点云论文速读。

文章：3D Object Detection for Autonomous Driving: A Survey

作者：Rui Qian, Xin Lai, and Xirong Li

编译：点云PCL

来源：arXiv 2021

欢迎各位加入免费知识星球，获取PDF论文，欢迎转发朋友圈。文章仅做学术分享，如有侵权联系删文，未经博主同意请勿转载。

公众号致力于分享点云处理，SLAM，三维视觉，高精地图相关的文章与技术，欢迎各位加入我们，一起每交流一起进步,有兴趣的可联系微信：920177957。本文来自点云PCL博主的分享，未经作者允许请勿转载，欢迎各位同学积极分享和交流。

摘要

3D目标检测作为自动驾驶感知系统的核心基础，感知是路径规划、运动预测、碰撞避免等功能的前提。通常，带有相应3D点云的立体/单目图像的传感器已经是3D目标检测的标准配置，能够提供了准确的深度信息，点云越来越普遍，尽管已有很多进展，但由于点云本质上的高度稀疏性和不规则性，以及相机视图和激光雷达鸟瞰视图之间的不对齐，导致模态协同、遮挡和远距离尺度变化等原因，使得在点云上的三维目标检测仍处于初级阶段，在三维物体检测方面已经取得了较好的进展，大量的文献正在研究解决这一视觉任务。因此，文章全面回顾了该领域的最新进展，涵盖了所有主要主题，包括传感器、基础知识和最新最先进的检测方法及其优缺点。此外，还介绍了度量标准，并对流行的公共数据集进行了定量比较。

（a）自2009年以来，3D对象检测方面的出版物数量不断增加到2019年。

（b）从2010年到2020年，“3d物体检测自动驾驶”热量随时间变化的趋势。

2009年至2019年出版物数量的增加以及2010年1月至2020年6月的热点趋势，三维对象检测正变得越来越流行。

介绍

众所周知，目前自动驾驶分为有5个级别。AD的最大划分发生在L3，在特定交通条件下，完全特定的安全关键功能转移到车辆上。

L0：驾驶员（人力）执行所有驾驶：转向、制动和动力等。

L1：高级辅助驾驶系统（ADAS）：自动协助驾驶员执行特定和有限的功能（例如转向或制动）。请注意，驾驶员仍然控制着大部分的驾驶的行为。

L2：辅助驾驶系统在某些情况下控制转向和加速/减速，在紧急情况下，仍然需要驾驶员的干预。

L3：必要时，驾驶员仍然必须进行干预，但能够将所有功能能够由车辆控制。

L4：这就是所谓的“完全自主”,车辆执行所有驾驶功能，整个行程仅限于特定设计区域。

L5：一个完全自主的系统预期可以像人类驾驶员一样工作，应对各种无约束驾驶场景。在可预见的未来，车上将只有乘客，没有驾驶员。

什么是三维物体检测？3D对象检测是从3D传感器数据中检测物理对象，估计出3D边界框并指定特定类别，三维目标检测是三维场景感知和理解的核心，随着各种类型的3D传感器的可用性，成千上万的下游应用程序如自动驾驶、家务机器人和增强虚拟现实等如雨后春笋般涌现，通常存在三种类型的三维数据表示方法，包括点云2（a）、网格2（b）、体积栅格2（c），在许多情况下，点云是其中的首选表示，点云既不像由大量面组成的网格那样消耗存储空间，也不像体积网格那样由于量化而丢失原始几何信息。点云接近原始激光雷达传感器数据。

图2 三种常见的点云表示方法

3D物体检测已经取得了显著的进步，但到目前为止，它仍然落后于2D物体检测。3D物体检测旨在通过精确的几何、形状和比例信息检测特定类别的物体：3D位置、方向和占用体积，为机器更好地了解周围环境，同时也带来了困难的技术挑战，一般认为，卷积神经网络成功的关键是能够利用图像的密集像素表示的空间局部相关性，然而，对点云直接应用CNN不可避免地会导致形状信息的丢失和点顺序排序的差异，在此基础上，本文详细分析了目前最新的三维目标检测方法。

主要内容

A 传感器

我们人类在驾驶时利用视觉和听觉系统感知现实世界，那么自动驾驶汽车呢？如果他们像人一样开车，那么确定他们在路上经常看到什么才是正确的选择。为此，传感器至关重要。传感器赋予车辆一系列能力：障碍感知、超车、自动紧急制动、避碰、行车追踪、交通灯和行人检测等，通常，最常用的传感器可分为两类：被动传感器和主动传感器。行业专家之间正在进行的辩论是，是否只为车辆配备摄像系统（无激光雷达），还是将激光雷达与车载摄像系统一起部署。目前，Waymo、Uber和Velodyne都支持激光雷达，而特斯拉更支持摄像系统，鉴于相机被视为被动传感器的典型代表之一，而激光雷达被视为主动传感器的代表。传感器之间的对比如下：

无论是基于多模态融合的方法还是基于点云的方法，坐标变换都贯穿始终。文章中介绍了关于坐标系变换的基础内容，这里不再过多的介绍。

从点云检测3D对象的概述。3D对象检测是从3D传感器数据中检测物理对象，估计3D边界框并指定特定类别，这里为激光雷达坐标系。

B 3D目标检测的方法

二维物体检测在一定程度上促进了三维物体检测的发展，如图所示，根据输入数据的模态，3D目标检测方法可分为基于单目/立体图像、基于点云和基于多模态融合的方法。

其中基于点云的方法在三维对象检测中占主导地位，根据点云表示方法的深度学习，可以进一步分为基于多视图、基于体素、基于点和基于点体素的方法，如今，基于多模态融合的方法越来越流行，但利用不同传感器（即图像和点云）的协同作用并非易事，为了明确区分不同的基于多模态融合的方法，这里定义了两类新的融合策略：基于序列融合的方法和基于并行融合的方法，根据每种方法出现的时间顺序，这里介绍了基于单目/立体图像的方法、基于点云的方法和基于多模态融合的方法。

1 基于单目/立体图像的方法

这些方法与二维目标检测方法在方法上最为相似，它们仅以单目/立体图像作为输入来预测三维目标实例，通常存在三种方法：基于模板匹配的方法和基于几何特性的方法，基于伪激光雷达的方法。

基于模板匹配的方法。这些方法倾向于通过全采样和评分3D建议区域作为代表性模板来执行2D/3D匹配。
基于几何特性的方法。这些方法不需要大量的建议区域来实现高召回率，而是从精确的2D边界框开始，直接从经验观察获得的几何特性粗略估计3D姿势。
基于伪激光雷达的方法。这些方法首先进行深度估计，然后再应用于现有的基于点云的方法。

基于单目/立体图像的方法的发展：1）模板匹配，2）几何特性，3）伪激光雷达

总之，基于单目/立体图像的方法各有优缺点。这些方法仅将图像作为输入，提供颜色属性和纹理信息，由于缺乏深度信息，一种可能的补救方法是研究深度估计算法，对于自动系统来说，除了经济方面的考虑外，冗余对于保证安全是必不可少的，因此基于图像的方法将在未来几年产生持续的影响。

2 .基于点云的方法

CNN的本质是稀疏交互和权重共享，其内核已被证明能够有效利用规则域中的空间局部相关性，即欧几里德结构，通过中心像素及其相邻像素的加权和，然而，CNN不适用于数据以不规则域表示的情况（例如点云数据）。由于点云是不规则和无序的，直接卷积它会遭受“形状信息的抛弃和点排序的变化”。基于点云的方法分为基于多视图，体素，点云的方法。

基于多视图的方法。这些方法首先将稀疏点云转换为前视图或鸟瞰视图（BEV）表示，这两种表示方法是稠密有规则的，主要是为了利用CNN和标准2D检测方法，该想法直观且简单。
基于体素的方法。这些方法通常将不规则点云转换为紧凑形状的体积表示，以便通过三维卷积神经网络（3D CNN）有效地提取用于3D检测的点特征。人们相信基于体素的方法在计算上是有效的，但由于离散化过程中的信息丢失，导致细粒度定位精度降低。
基于点云的方法。这些方法通常使用利用原始点云，主要有两种方法：PointNet（++）及其变体或图形神经网络（GNN）,通常，它们尽可能保留原始点云的几何图形，然而，与体积网格相比，三维空间中的点检索不利于硬件的高效实现。

具有代表性的3D目标检测的方法：a) VoxelNet , b) SECOND , c) PointRCNN, d) STD , e) PV-RCNN , f) Frustum-PointNets, g) MV3D , h) Pseudo-LiDAR .

基于点云3D目标检测方法的发展：1）体素网格，2）点云，3）点云+体素混合。

3 基于多模态融合的方法

目前，用于自动驾驶的三维目标检测在很大程度上依赖于激光雷达提供信息丰富的周围信息。尽管精确，但由于固有的安全风险（如破坏、不利条件和盲点等），过度依赖单个传感器是不够明智的。此外，远距离点云的低分辨率和较差的纹理信息也带来了巨大的挑战。当然，最有希望的候选设备是车载立体或单目摄像机，它们同时提供精细纹理和RGB属性。不过，相机天生就有深度模糊的问题。此外，立体或单目相机比激光雷达便宜几个数量级，具有高帧速率和密集的深度图。一个有说服力的案例下图所示

当距离较远时，在激光雷达模式中更难区分行人和路标，显然，每种传感器类型都有其缺陷，融合处理被视为故障模式的可能补救措施。

深度神经网络利用自然信号的成分层次特性，其中融合策略可能有所不同，通常存在两类融合方案，即早期融合和晚期融合，前者在输入监督学习者之前结合了多模态特征，而后者则整合了单独训练的监督学习者获得的语义特征，如下图所示：

注意，不同的融合变体在3D对象检测中始存在的，上述方案可能不适用。例如， pointpainting是一种顺序融合方法，既不适用于早期融合，也不适用于晚期融合。因此，我们定义了两个新的类别：顺序融合和并行融合。

基于多模态融合方法的发展：1）RoI融合，2）像素融合。

对比实验

对于每种最先进的方法，中等难度的汽车类别在2D、3D和BEV目标检测方面的表现。2D对象检测绘制为蓝色三角形，BEV对象检测绘制为绿色圆圈，3D对象检测绘制为红色正方形。两阶段方法绘制为实线，一阶段方法绘制为虚线

最新三维目标检测技术的综合比较

自动驾驶环境下3D目标检测的公共可用数据集摘要

结论

近年来，在三维目标检测方面取得了显著的成就，这项调查广泛阅读了最新的有代表检测器，并仔细分析了它们的优缺点，我们的分类基于传感器模态：基于单目/立体图像、基于点云和基于多模态融合的方法。此外，我们从表示深度学习的角度将基于点云的方法分为基于多视图、基于体素、基于点和基于点体素的方法，还提供了常用的度量标准、自动驾驶环境下3D对象检测的发展、最新技术的全面比较，以及正在展示的有见地的观察结果。

本文仅做简单分享介绍，详情可查看具体论文！

资源

三维点云论文及相关应用分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

3D目标检测：MV3D-Net

三维点云分割综述（上）

3D-MiniNet: 从点云中学习2D表示以实现快速有效的3D LIDAR语义分割（2020）

win下使用QT添加VTK插件实现点云可视化GUI

JSNet：3D点云的联合实例和语义分割

大场景三维点云的语义分割综述

PCL中outofcore模块---基于核外八叉树的大规模点云的显示

基于局部凹凸性进行目标分割