RODNet: A Real-Time Radar Object Detection Network Cross-Supervised by Camera-Radar Fused Object 3D

一篇雷达与视觉融合的文章
原论文地址：https://arxiv.org/abs/2102.05150
代码地址：https://github.com/yizhou-wang/RODNet

摘要

通过准确可靠地感知车辆周围的环境，促进了各种自主或辅助驾驶策略。在常用的传感器中，雷达通常被认为是一种强大且经济高效的解决方案，即使在不利的驾驶场景中，例如弱/强照明或恶劣天气。与其考虑融合来自所有可用传感器的不可靠信息，纯雷达数据的感知成为一种值得探索的有价值的替代方案。然而，与相机捕获的丰富的基于 RGB 的图像不同，从雷达信号中提取语义信息明显困难。在本文中，我们提出了一种名为 RODNet 的深度雷达目标检测网络，该网络由相机-雷达融合算法交叉监督，无需费力的注释工作，以实时有效地从射频 (RF) 图像中检测目标。首先，毫米波雷达捕获的原始信号被转换为距离-方位坐标中的射频图像。其次，我们提出的 RODNet 将一系列 RF 图像作为输入来预测雷达视场 (FoV) 中物体的可能性。还添加了两个定制模块来处理多线性调频信息和对象相对运动。所提出的 RODNet 不是使用人工标记的真实标签进行训练，而是通过在训练阶段使用相机-雷达融合 (CRF) 策略对检测到的对象进行新颖的 3D 定位进行交叉监督。最后，我们提出了一种评估 RODNet 对象检测性能的方法。由于没有现有的公共数据集可用于我们的任务，我们创建了一个名为 CRUW 1 的新数据集，其中包含在各种驾驶场景中同步的 RGB 和 RF 图像序列。通过密集的实验，我们提出的交叉监督 RODNet 实现了 86% 的平均精度和 88% 的目标检测性能平均召回率，这显示了在各种驾驶条件下对噪声场景的鲁棒性。
在这里插入图片描述

图 10. 实时实现的性能-速度权衡。小于 100 ms 的推理时间被用作实时标准。我们使用片段长度 16，标记旁边的数字是每两个重叠 RF 片段之间的步长。

1.介绍

本文通过解决仅基于雷达信号的雷达目标检测任务，设法提取射频 (RF) 图像的语义特征。从视觉提取语义信息鲁班性不足，在能见度降低或者遮挡的情况下；使用激光雷达提取语义信息需要的计算成本过高；
调频连续波（FMCW）雷达工作在低于可见光的毫米波（MMW）频段（30-300GHz），具有以下特性： 1）毫米波具有很强的穿透雾、烟雾、和灰尘； 2) 巨大的带宽和高工作频率赋予 FMCW 雷达强大的范围检测能力。通常，FMCW 雷达有两种数据表示，即射频图像和雷达点。 RF 图像是使用一系列快速傅立叶变换 (FFT) 从原始雷达信号生成的，然后通过峰值检测算法从这些频率图像中导出雷达点。虽然雷达点可以直接用作为 LiDAR 点云设计的方法的输入，但这些雷达点信息不足以完成目标检测任务。而射频图像可以保持丰富的多普勒和物体运动信息，从而具有理解某个物体语义的能力。
在本文中，我们提出了一种雷达目标检测方法，该方法在训练阶段由摄像机-雷达融合算法交叉监督，可以完全基于雷达信号准确地检测目标。更具体地说，我们提出了一种新的雷达目标检测管道，它由两部分组成：教师和学生。教师的管道通过系统地融合来自可靠的相机-雷达传感器融合算法的信息来估计物体类别和视野（FoV）中的3D位置。学生的管道包括一个雷达目标检测网络（RODNet），该网络仅将射频图像序列作为输入，并估计目标置信图（ConfMaps，在第IV-C节中讨论）。从ConfMaps中，我们可以通过我们的后处理方法（称为基于位置的非最大抑制（L-NMS，在第IV-C节中讨论）进一步推断雷达距离-方位坐标中的目标类别和位置。学生管道中的RODNet由教师管道系统标记的注释进行训练，而无需费力且不可靠的人工标记工作。上述建议的管道如图1所示。对于RODNet的网络架构，我们实现了一个基于沙漏（HG）架构的3D卷积神经网络（3D CNN），该结构具有跳跃连接，用于从射频图像中提取特征。设计了几个定制模块，以利用射频图像序列的特殊特性。首先，考虑每个雷达帧中包含详细目标特征的chirp信息。因此，提出了一种chirp合并模块（M-Net）来将chirp(线性调频信号)级特征合并到帧级特征中。其次，由于雷达与目标之间的相对运动导致雷达反射模式随时间变化，经典的三维卷积无法有效提取时间特征。因此，一种新的卷积运算，被称为时间可变形卷积（TDC），用于处理射频图像序列中特征的时间演化。
训练和评估RODNet使用我们自己收集的数据集，被称为华盛顿大学的相机雷达（CRUW），它包含了大约400K同步相机雷达帧的各种驾驶场景。如上所述，我们不使用雷达点作为数据格式，而是选择RF图像，该图像固有地包含物体的详细运动和表面纹理信息。为了定量评估我们提出的RODNet的性能，在不定义基于图像的目标检测中广泛使用的边界盒的情况下，我们进一步引入了一种评估方法来评估射频图像中的雷达目标检测性能。通过大量的实验，我们的RODNet可以在各种驾驶场景下仅基于射频图像实现约86%的AP和88%的AR目标检测性能，而不管摄像机视野中的目标是否可见。总的来说，我们的主要贡献如下：
•一种称为RODNet的新型稳健雷达目标检测网络，用于各种驾驶场景中的稳健目标检测，可用于无需摄像头或激光雷达信息的自主或辅助驾驶。
•引入定制模块，即M-Net和时间可变形卷积（TDC），以有效利用射频图像的特殊特性。
•摄像机-雷达融合（CRF）监控框架，用于训练RODNet，利用基于单目摄像机的目标检测和3D定位方法，并通过统计检测推断雷达射频图像。
•收集了一个名为CRUW的新数据集，其中包含同步和校准的摄像机雷达帧，可作为摄像机/雷达交叉模态研究的有价值数据集。
•提出了一种新的基于射频图像的雷达目标检测任务评估方法，并证明了其有效性。
本文的其余部分组织如下。第二节回顾了摄像机和雷达数据学习的相关工作。第三节介绍了我们提出的带有定制模块的RODNet。第四节介绍了我们提出的CRF跨模态监控框架，该框架可获得可靠的雷达目标注释。第五节介绍了我们自行收集的CRUW数据集，用于我们的培训和评估。第六部分介绍了评估方法和实验。最后，我们总结了第六部分的工作。
在这里插入图片描述
图1.拟议的雷达目标检测跨模式监控管道，教师管道融合RGB和RF图像的结果，以获得RF图像中的对象类和位置。学生管道仅使用RF图像作为输入，在教师的监督下预测相应的ConfMap。采用L-NMS作为后处理，计算最终雷达目标检测结果。

2.相关工作

2.1基于视觉的学习

一旦多个连续帧中的相同对象被关联，丢失和错误的检测可以被恢复或纠正，从而产生更好的后续三维定位性能。因此，我们在框架的视觉部分实现了这种跟踪技术。在[7]中提出了一种基于检测和跟踪的对象二维边界框的精确而健壮的对象三维定位系统，该系统可用于道路场景中最常见的移动对象，如汽车、行人和自行车。因此，我们采用这种基于单目摄像机的三维定位系统，并将其与雷达定位信息融合，作为我们的系统摄像机标注方法，为RODNet训练提供地面真实信息。[7]Monocular visual object 3d localization in road scenes

2.2 雷达数据的学习

RF-Pose将交叉模态监督思想引入无线信号中，以实现基于 WiFi 范围无线电信号的人体姿态估计，使用计算机视觉技术，即 OpenPose，系统地生成人体注释来自相机的关键点。雷达目标检测更具挑战性：
1）物体检测（尤其是分类）的特征提取比人体关节检测更困难，人体关节检测仅通过相对位置对不同关节进行分类，不考虑物体运动和纹理信息；
2) 车辆上典型的 FMCW 雷达的分辨率远低于 RF-Pose 中使用的 WiFi 阵列传感器。至于自动或辅助驾驶应用，Major 等人,提出了一种基于汽车雷达的车辆检测方法，使用 LiDAR 信息进行跨模态学习。但是，我们的工作与他们的不同：
1）他们只考虑车辆作为目标对象类，而我们检测行人、骑自行车的人和汽车；
2）他们的数据集中的场景主要是没有嘈杂障碍物的高速公路，这更容易雷达目标检测，而我们正在处理更加多样化的驾驶场景。
帕尔菲等人。提出了一种基于雷达的单帧多类目标检测方法。然而，他们只考虑来自单个雷达帧的数据，不涉及物体运动信息。

2.3.Datasets

数据集对于验证算法很重要，尤其是对于基于深度学习的方法。自从第一个完整的自动驾驶数据集 KITTI [51] 发布以来，现在可以使用更大和更高级的数据集 [16]。然而，由于硬件兼容性和不太发达的雷达感知技术，大多数数据集没有将雷达信号作为其传感器系统的一部分。在可用的雷达数据集中，nuScenes [16] 和 Astyx HiRes2019 [54] 认为雷达具有良好的校准和与其他传感器的同步性。但是他们的雷达数据格式是基于稀疏的雷达点，不包含有用的多普勒和物体表面纹理信息。虽然牛津雷达 RobotCar 数据集 [55] 包含密集的雷达点云，但它不提供任何对象注释。在对可用数据集进行广泛研究后，我们找不到合适的数据集，其中包含带有标记地面实况的 RF 图像格式的大规模雷达数据。因此，我们收集了我们的 CRUW 数据集，这将在第五节介绍;

3.雷达目标检测

在本节中，解决了我们的雷达对象检测的学生管道。首先，将原始雷达信号预先转换为 RF 图像，以与基于图像的卷积神经网络 (CNN) 兼容。之后，分析了射频图像的一些特殊属性和挑战。其次，提出的 RODNet 引入了各种功能组件。第三，在 RODNet 中添加了两个定制模块来应对上述挑战。最后，采用称为基于位置的非极大值抑制 (L-NMS) 的后处理方法来恢复 ConfMap 以进行最终检测。
图2 从原始雷达信号生成 RF 图像的工作流程

图2 从原始雷达信号生成 RF 图像的工作流程。

3.1 雷达信号处理和特性

在这项工作中，我们使用一种常见的雷达数据表示，称为射频 (RF) 图像，来表示我们的雷达信号反射。 RF 图像采用雷达距离-方位坐标，可以描述为鸟瞰图 (BEV) 表示，其中 x 轴表示方位角（角度），y 轴表示距离（距离）。 FMCW 雷达发射连续的啁啾并接收来自障碍物的反射回波。在回波被接收和预处理后，我们对样本实施快速傅立叶变换 (FFT) 以估计反射的范围。然后使用低通滤波器 (LPF) 以 30 FPS 的速率去除每帧中所有啁啾声中的高频噪声。在 LPF 之后，我们对沿不同接收器天线的样本进行第二次 FFT，以估计反射的方位角并获得最终的 RF 图像。这种射频图像生成工作流程如图 2 所示。雷达数据在转换为射频图像后，变成与图像序列类似的格式，因此可以直接由基于图像的 CNN 处理。
此外，射频数据具有以下要处理的对象检测任务的特殊属性。
• 丰富的运动信息。根据无线电信号的多普勒原理，包含丰富的运动信息。物体的速度及其随时间的变化规律取决于其表面纹理信息、大小和形状细节等。例如，非刚体（如行人）的运动信息通常分布广泛，而对于像汽车这样的刚体，由于多普勒效应，它应该更加一致。为了更好地利用时间信息，我们需要考虑多个连续的雷达帧，而不是一个单一的帧，作为系统输入。
• 不一致的分辨率。由于雷达硬件规格的限制，例如天线数量和天线之间的距离，雷达通常在距离上具有较高的分辨率，但在方位角上的分辨率较低。
• 复数。无线电信号通常表示为包含频率和相位信息的复数。这种数据很难用典型的 CNN 架构建模。
根据上述性质，提出的雷达目标检测方法需要具备以下能力：
1）提取时间信息；
2）处理多个空间尺度；
3）能够处理复数数据。

3.2RODNet 架构

在构建 RODNet 的网络架构时采用了三个功能组件，如图 3（a）-（c）所示，它是基于具有自动编码器结构的 3D CNN 实现的。更具体地说，我们的 RODNet 从 3D CNN 自动编码器网络的原始版本开始，如图 3（a）所示。然后，建立在基于沙漏的自动编码器上，如图 3（b）所示，其中添加了跳过连接以将特征直接从底层传输到顶层。我们进一步添加了时间初始卷积层，以从输入 RF 图像序列中提取不同长度的时间特征，其灵感来自中提出的空间初始卷积层，如图3（c）所示。我们网络的输入是具有维度 (CRF, T, n, H, W) 的 RF 图像 R 片段，其中 CRF 是每个复数 RF 图像中的通道数，参考，其中实部和虚部是在一张 RF 图像中被视为两个不同的通道，即 CRF = 2； T 是片段中 RF 图像帧的数量； n是每帧中的啁啾(chirps)次数； H 和 W 分别是 RF 图像的高度和宽度。预测维度为 (Ccls, T, H, W) 的 ConfMaps ˆD，其中 Ccls 是对象类的数量。请注意，RODNet 为雷达射频图像的每个对象类别预测单独的 ConfMap。通过使用第四节中描述的教师管道系统地导出二进制注释，我们可以使用二进制交叉熵损失训练我们的RODNet.
center
D 代表从 CRF 注释生成的 ConfMaps，ˆD 代表预测的 ConfMaps，(i, j) 代表像素索引，cls 是类标签。
在这里插入图片描述图 3. 我们提出的 RODNet 的架构和模块。 RODNet 的三个不同组件都是基于 3D CNN/TDC 和自动编码器网络实现的，如 (a)、(b) 和 © 所示。 RODNet 的输入是每帧有 n 个啁啾 (CPF) 的 RF 图像。当 n = 1 时，我们只随机选择一个 chirp 的数据馈入 RODNet，而当 n > 1 时，实现 M-Net 模块以合并该帧中来自不同 chirp 的数据。 M-Net 模块，描述于 (d)，以具有多个雷达啁啾的一帧作为输入并输出该帧的合并特征。此外，引入(e)中的时间可变形卷积(TDC)模块来处理输入RF图像序列内的雷达对象动态运动。

3.3 M-Net模块

除了每个 RF 片段中不同帧的时间特征外，来自不同 chirp 的所有信息都有助于雷达目标检测的特征。为了更好地整合来自不同 chirp 的动态信息，我们提出了一个称为 M-Net 的定制模块，然后将 RF 片段发送到 RODNet。如图 3 (d) 所示，将一帧 n chirps的 RF 图像发送到维度为 (CRF, n, H, W) 的 M-Net，其中 CRF = 2。首先，时间卷积是用于提取 n个chirp 中的时间特征。这个 M-Net CNN 操作执行类似于多普勒补偿 FFT 来提取动态运动特征，但可以在深度学习架构中进行端到端的训练。然后，为了将n个chirps 中的特征合并为一个，应用了时间最大池化层。最后，M-Net的输出是提取的雷达帧特征，维度为 (C1, H, W)，其中 C1 是时间卷积的滤波器数量。 M-Net 应用于每个在将 M-Net 应用于每个雷达帧之后，从输入片段中的所有帧中提取的特征会随着时间连接起来，并作为输入发送到后续的 RODNet，如图 3 (a)- ( c )所示。

3.4 时间可变形卷积

如 3.2 节所述，RODNet 的输入是 M-Net 合并特征后的 RF 图像片段。因此，在此期间，由于物体相对运动，物体在雷达距离-方位坐标中的位置可能会发生偏移，这意味着射频图像中的反射模式可能会改变它们在片段内的位置。然而，经典的 3D 卷积只能捕获常规长方体内的静态特征。因此，它不是具有对象相对运动的 RF 片段的最佳特征提取器。最近，戴等人。提出一个新的卷积网络，命名为可变形卷积网络（DCN），用于基于图像的对象检测来处理图像中的变形对象。在可变形卷积中，原始卷积网格是可变形的，因为每个网格点都移动了一个可学习的偏移量，并且卷积是在这些移动的网格点上进行操作的。受 DCN 的启发，我们将变形内核推广到 3D CNN，并将这种新颖的算子命名为时间可变形卷积 (TDC)。以核大小为 (3, 3, 3) 和扩张为 1 的 3D CNN 为例，规则感受野 R 可以定义为:
在这里插入图片描述
对于输出特征图 y 上的每个位置 p0，经典的 3D 卷积可以描述为:

其中 w 是卷积核权重，x 是输入特征图，pn 枚举 R 中的位置。为了处理时域中的对象动态运动，我们通过添加额外的偏移字段 {Δpn}，其中 N = |R| 是感受野的大小。所以等式3变成:
在这里插入图片描述
请注意，偏移场 Δpn 仅在每个时间位置内变形，即特定帧的接收位置不会变形到其他帧，因此偏移场的时间域始终为零。为了简化实现过程，将偏移向量定义为二维向量，这样整个偏移场的维度为（2N，T，H，W）。我们提出的 TDC 的说明如图 3（e）所示。
由于偏移场 ∆pn 通常是小数，因此等式 4 通过双线性插值实现为:
在这里插入图片描述
其中 p = p0+pn+Δpn 是小数位置； q 枚举 3D 特征图 x 中的所有整数位置； G 是双线性插值核，在空间域中也是二维的。 TDC 的反向传播公式类似于中讨论的公式，除了添加了时间域，并在补充文件中进行了描述。

3.5 基于位置的 NMS 后处理

从给定的 RF 片段预测 ConfMap 后，仍然需要一个后处理步骤来获得最终检测结果。在这里，我们采用了基于图像的目标检测中经常使用的非最大抑制（NMS）的思想来从检测结果中去除冗余边界框。传统上，NMS 使用交集（IoU）作为标准来确定是否应该删除边界框，因为它与最高置信度的检测候选对象重叠太多。但是，我们的 RF 图像中没有边界框定义，也没有结果输出 ConfMap。因此，受 COCO 数据集中为人体姿态评估定义的对象关键点相似性 (OKS) 的启发，我们定义了一个新的度量，称为对象位置相似性 (OLS)，类似于 IoU 的作用，以描述考虑到的两个检测之间的相关性他们在 ConfMaps 上的距离、类别和比例信息。进一步来说：在这里插入图片描述
其中 d 是两点之间的距离（以米为单位），在射频图像中； s为距雷达传感器的物体距离，代表物体尺度信息； κcls 是一个 per-class 常数，表示类 cls 的容错能力，可以由对应类的对象平均大小决定。我们凭经验确定 κcls 以使 OLS 在 0 和 1 之间合理分布。在这里，我们尝试将 OLS 解释为高斯分布，其中距离 d 作为偏差，(sκcls) 的平方作为方差。因此，OLS 是一个相似度度量，它也考虑了对象的大小和距离，因此比其他传统的距离度量更合理，例如欧几里德距离、马氏距离等。这个 OLS 度量也用于匹配检测和地面实况评估目的，在第六节中提到。
在定义了 OLS 之后，我们提出了一个基于位置的 NMS（L-NMS）进行后处理。 L-NMS 的一个例子如图 4 所示，其过程可以总结如下：
1) 在 3 × 3 窗口内获取 ConfMaps 中所有 Ccls 通道中的所有 8-neighbor 峰值作为峰值集 P = {pn}。
2) 选择置信度最高的峰值 p∗ ∈ P，将它添加到最终的峰值集 P∗ 并将其从 P 集移除。用每个其余的峰值 pi (pi = p∗) 计算 OLS。
3) 如果 p∗ 和 pi 之间的 OLS 大于阈值，则从峰值集中移除 pi。
4) 重复步骤 2 和 3，直到峰集变空。
此外，在推理阶段，我们可以将重叠的 RF 片段发送到网络中，从而为单个雷达帧提供不同的 ConfMaps 预测。然后，我们将这些不同的 ConfMaps 平均在一起以获得最终的 ConfMaps 结果。该方案可以提高系统的鲁棒性，可以被视为性能-速度的权衡，这将在第 VI-C 节中进一步讨论。
在这里插入图片描述

图 4. ConfMap 上的 L-NMS 示例。数字代表RODNet 预测的置信度分数。首先检测 8 个相邻峰，然后抑制某些峰（如果它们靠近具有更高置信度的其他峰）

4 跨模式监管

在本节中，描述了为 RODNet 提供监督的教师管道。首先，引入了仅相机和相机-雷达融合的注释方法，以获得准确的对象类和 3D 位置。然后，这些注释被应用到 ConfMaps 作为用于端到端训练网络的基本事实。
在这里插入图片描述图 5. 用于跨模型监督的三个教师管道。 (a) 提供对象类和 3D 位置的仅相机方法； (b) 仅提供没有对象类别的峰值位置的仅雷达方法； © 提供对象类别和更准确 3D 位置的相机-雷达融合方法。

4.1 仅相机 (CO) 监督

多年来，计算机视觉社区的研究人员一直在探索对象检测和 3D 定位。在这里，我们使用 Mask R-CNN 作为我们基于图像的对象检测器，它可以提供对象类、边界框及其实例掩码。同时，由于从 3D 世界到 2D 图像的相机投影过程中深度信息的丢失，对象 3D 定位更具挑战性。
为了从 2D 图像中恢复 3D 信息，我们利用了基于单目相机的视觉对象 3D 定位有效且稳健的系统的最新工作。所提出的系统以 CNN 推断的深度图作为输入，结合自适应地平面估计和多目标跟踪结果，以有效地估计对象类别和相对于相机的 3D 位置。这种纯摄像头系统的主要优势在于它可以纯粹从单眼视频中可靠地估计物体的 3D 位置，从而对用于注释的视觉数据的要求非常低，即一个摄像头就足以获得注释结果。这种能力背后的原因可以分为三部分：
1）系统中使用的深度估计在训练过程中由立体图像对进行自我监督，以提供单目相机系统中缺失的绝对尺度信息；
2) 提出了基于稀疏检测对象脚点和密集语义分割地面点的自适应地平面估计来处理每帧内不准确的深度；
3) 结合了多目标跟踪技术来解决帧间偏差问题并在时间上平滑目标 3D 轨迹。
提出的单目相机对象 3D 定位系统的简化说明如图 5（a）所示。立体相机也可用于对象 3D 定位，但是，高计算成本和对相机设置配置（例如基线距离）的敏感性导致立体对象 3D 定位系统的局限性。然而，正如在 [59] 中所观察到的那样，上述仅相机系统在转换为雷达的距离-方位坐标后可能不够准确，因为：

相机-雷达传感器系统中的系统偏差，即射频图像中的峰值可能与物体的 3D 几何中心不一致；
相机的性能很容易受到光照或天气条件的影响。由于我们确实有可用的雷达信息，因此应使用相机-雷达交叉校准和监督。因此，需要一种基于相机-雷达融合的更准确的自我注释方法来训练 RODNet。

4.2 相机-雷达融合 (CRF) 监督

改进上述仅相机注释的一种直观方法是利用雷达，它具有合理的距离估计能力，没有任何系统偏差。在这里，我们采用恒定误报率 (CFAR) 检测算法 [13]，该算法常用于信号处理以检测 RF 图像中的峰值。如图 5（b）所示，CFAR 算法可以检测到射频图像中的几个峰值，用红点表示。然而，这些检测到的峰值不能直接用作监督，原因为：
1）CFAR算法无法为每次检测提供目标类；
2）CFAR算法通常会给出大量的误报检测。
因此，需要一种通过相机-雷达融合策略的目标定位方法来解决这些问题。图 5 © 说明了相机-雷达融合 (CRF) 管道，其中从相机检测到的物体的类别和 3D 位置首先通过转换将检测从 3D 相机坐标投影到雷达范围方位角坐标.变换可以表示为:
在这里插入图片描述
在相机和雷达之间的坐标对齐后，进一步开发概率CRF算法以实现更可靠和系统的注释性能。该算法的基本思想是分别为相机和雷达位置生成两个概率图，然后通过元素乘积将它们融合。具有对象类 cls 的相机位置的概率图由下式子可知：
在这里插入图片描述
CO 和 CRF 注释的对象 3D 定位精度将在后面的第 VI-B 节中讨论。

4.3 ConfMap 生成

在雷达范围方位角坐标中准确定位对象后，我们需要将结果转换为与我们的 RODNet 兼容的适当表示。考虑到 [48] 中定义人体关节热图来表示关节位置的想法，我们在范围-方位坐标中定义了置信图 (ConfMap) 来表示对象位置。一组 ConfMap 有多个通道，其中每个通道代表一个特定的类别标签，即汽车、行人和骑自行车的人。第 cls 通道中像素处的值表示具有类 cls 的对象出现在该距离-方位角位置的概率。在这里，我们使用高斯分布来设置对象位置周围的 ConfMap 值，其均值为对象位置，方差与对象类别和尺度信息相关。

5. CRUW DATASET

浏览 2.3 节中讨论的一些现有的自动驾驶数据集，通常使用 3D 雷达点格式。同时，它不包含我们的雷达目标检测任务所需的区分目标运动和表面纹理信息。为了使用雷达数据有效地训练和评估我们的 RODNet，我们收集了一个名为华盛顿大学相机雷达 (CRUW) 的新数据集，该数据集使用雷达数据的 RF 图像格式，如第 3.1 节所述。我们的传感器平台包含一对立体相机 [60] 和两个垂直77GHz FMCW 毫米波雷达天线阵列 [61]。如图 6 (a) 所示组装和安装在一起的传感器经过良好校准和同步。我们的传感器平台的一些配置如表 I 所示。尽管我们最终的跨模式监督只需要一个单目相机，但立体相机的设置为 CRF 监督的性能验证提供了深度的真实情况。 CRUW 数据集包含 3.5 小时、30 FPS（约 400K 帧）的相机-雷达数据，在不同的驾驶场景 ios 中，包括校园道路、城市街道、高速公路和停车场。一些示例场景如图 6 (b) 所示。数据以两种不同的视图收集，即用于自动驾驶或辅助驾驶的驾驶员前视图和不同的透视图。此外，我们还收集了几个图像质量较差的视觉困难序列，即弱/强照明、模糊等。这些数据仅用于测试，以说明当视觉技术最有可能失败时，我们的方法仍然是可靠的。
CRUW的数据分布如图7所示。 (a)-©中的物体统计仅考虑雷达视场（FoV）内的物体，即0-25m，±90°，基于当前的硬件能力。 CRUW 数据集中共有约 260K 个对象，其中 92% 用于训练，8% 用于测试。每帧中的平均对象数在训练和测试数据之间相似。对于测试集，我们将其分为三个难度级别，即简单、中等和很难，评估不同场景下的性能。这种分割的标准包括对象的数量、清晰/嘈杂的背景、正常/极端照明和对象相对运动。 CRUW 数据集中包含的四种不同驾驶场景如 (d) 所示，包括序列、帧数和视觉困难百分比。从每个场景中，我们随机选择几个完整的序列作为测试序列，不用于训练。因此，训练和测试序列是在不同位置和不同时间捕获的。对于评估目的所需的基本事实，我们注释了 10% 的可见数据和 100% 的视觉困难数据。通过根据相应的 RGB 和 RF 图像标记对象类别和位置，对 RF 图像进行注释。
在这里插入图片描述

图 7. 我们的 CRUW 数据集分布图。这里，(a)-(c) 显示了雷达 FoV (0-25m, ±90°) 中的物体分布； (d) 显示了不同驾驶场景和光照条件下的分布。

6 实验

6.1 评估指标

为了评估性能，我们利用我们在第 3.5 节中提出的对象位置相似性（OLS）（参见等式 6），取代广泛用于基于图像的对象检测中的 IoU 的作用，以确定检测结果与一个基本事实。在评估过程中，我们首先计算每一帧中每个检测结果与地面实况之间的 OLS。然后，我们对 OLS 使用 0.5 到 0.9 的不同阈值，步长为 0.05，并计算不同 OLS 阈值的平均精度 (AP) 和平均召回率 (AR)，这代表检测结果的不同定位误差容限。在这里，我们使用AP和AR来表示0.5到0.9之间所有不同OLS阈值的平均值，并使用APOLS和AROLS来表示某个OLS阈值处的值。总的来说，我们使用 AP 和 AR 作为我们对雷达目标检测任务的主要评估指标。

6.2 雷达目标检测结果

我们使用 CRUW 数据集中带有 CRF 注释的训练数据训练我们的 RODNet。为了测试，我们对人工标注的数据进行推理和评估。定量结果如表 3 所示。我们将 RODNet 结果与以下同样使用仅雷达输入的基线进行比较：
1）使用来自雷达数据的一些手工特征的决策树[41]；
2）首先实现CFAR检测，并附加一个带有ResNet骨干网络的雷达目标分类网络[35]；
3) 与 2) 类似，一个基于 [41] 中提到的基于 CFAR 检测的 VGG-16 主干的雷达目标分类网络。
在所有三种竞争方法中，[35]、[41] 的 AR 性能在所有三个不同的测试集中都相对稳定，但它们的 AP 差异很大。特别是，对于容易到难的测试集，AP 从 80% 左右下降到 10%。这是由传统CFAR算法检测到的大量误报引起的，这会显着降低精度。

表 3 在 CRUW 数据集上评估的雷达目标检测性能

在这里插入图片描述
与上述基线方法相比，我们的 RODNet 在 AP 和 AR 指标上均显着优于，实现了 85.98% AP 和 87.86% AR 的最佳性能，尤其是在中等和硬测试集上的持续性能，显示了对嘈杂的场景。请注意，表 3 中显示的 RODNet 的结果包括为 RODNet 提出的所有组件，即 CRF 监督、M-Net、TDC 和时间初始 CNN。一些定性结果如图 8 所示，我们可以发现 RODNet 可以在不同场景下准确定位和分类多个对象。图 8 中的示例由 RGB 和 RF 图像对以及不同驾驶场景和条件下的 RODNet 检测结果组成，包括停车场、校园道路和城市街道，具有不同的照明条件。
在这里插入图片描述
图 8. 来自我们 RODNet 的检测结果示例。第一行显示 RGB 图像，第二行显示相应的 RF 图像。 RODNet 预测的 ConfMaps 显示在第三行，其中白点代表后处理后的最终检测。不同的颜色代表不同的检测对象类别（红色：行人；绿色：骑自行车的人；蓝色：汽车）。显示了各种驾驶场景，即空旷的停车场、拥挤的城市街道和强/弱照明条件。补充材料中提供了更多定性结果。
为了说明我们老师的管道有资格完成这个交叉监督任务，我们在表 5 中评估了 CO 和 CRF 注释的对象 3D 定位性能。此外，我们还比较了 CO/CRF 监督和我们的 RODNet 在两个可见（ V) 和视觉困难 (VH) 数据。对于不同的 OLS 阈值，结果如图 9 所示。

表5 CRUW 数据集上 CO/CRF 注释的平均定位误差（标准偏差）（以米为单位）

在这里插入图片描述

图 9. 基于视觉和我们的 RODNet 在具有不同 OLS 阈值的硬测试集上的性能，代表定位误差容限。（CO：仅相机；CRF：相机-雷达融合；V：可见数据；VH：视觉硬数据。）
从图 9 可以看出，鉴于 OLS 阈值更严格，基于视觉的方法的性能显着下降，而我们的 RODNet 在其定位性能上显示了其优越性和鲁棒性。此外，在基于视觉的方法难以保持性能的情况下，RODNet 仍然可以保持视觉失败数据的性能。

6.3 实时性

此外，实时实施对于自动驾驶或辅助驾驶应用至关重要。如第 3.5 节所述，我们在推理过程中使用不同重叠长度的 RF 帧。重叠帧越多，RODNet 的检测结果就越稳健，但推理时间也会增加。 RODNet 模型的训练和推理在 NVIDIA Quadro GV100 GPU 上运行，消耗的时间如图 10 所示。在这里，我们展示了三种构建架构（Vanilla、HG 和 HG with temporal inception）的 AP RODNet，并使用 100 毫秒作为合理的实时阈值。结果表明，具有相对简单的 vanilla 主干的 RODNet 可以实现实时并在 100 毫秒内完成预测。对于 HG 主干，当重叠长度增加时，它会跨过实时阈值。此外，没有时间初始层的 HG 比具有所有网络组件的 HG 略快。

7 结论

目标检测在自动驾驶和许多其他领域至关重要。计算机视觉社区几十年来一直在关注这个话题，并提出了许多很好的解决方案。然而，基于视觉的检测方案仍然受到许多不利的光照和天气条件的影响。本文提出了一种全新的、新颖的完全从雷达信息中提取的物体检测方法，在不利条件下可以比视觉更鲁棒。所提出的 ROD Net 可以基于来自有效的相机-雷达融合算法的完全系统的跨模态监督方案，在各种自动驾驶和辅助驾驶场景中，即使在夜间或恶劣天气下，也能准确、稳健地检测物体，这可能会提高雷达在自动驾驶和辅助驾驶应用中的作用。

个人阅读感悟

这是一篇将利用雷达的RF图像，通过构建的ROD Net实现了在复杂场景下的目标检测，不同于其它雷达目标检测的方法在于，ROD Net模型在训练时的监督信息是通过成对的图像和目标检测模型相结合的输出结果作标签，与ROD Net的输出结果进行计算损失。

版权声明：本文为CSDN博主「WangXL1995」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_44731318/article/details/119913751

RODNet: A Real-Time Radar Object Detection Network Cross-Supervised by Camera-Radar Fused Object 3D

摘要

1.介绍