赶工读文章（2）— Radar-Camera Sensor Fusion for Joint Object Detection and Distance Estimation in AV

文章目录[隐藏]

一、网络结构
二、Radar Proposal Network
三、Image Proposal Network
四、Distance Refinement
五、Loss Function

从这个阅读量和展现量看是挨爬虫爬了吗……
如有错漏，还望指正。

Radar-Camera Sensor Fusion for Joint Object
Detection and Distance Estimation in Autonomous Vehicles (2020)
作者：Ramin Nabati, Hairong Qi
原文传送门：paper

介绍：据作者说，对于一个two-stage的网络，proposals生成的网络比较影响检测精度，所以他们提出的这个网络尝试用雷达点去提高proposals生成的准确程度。具体来说，作者把基于radar和基于camera生成的proposals融合，然后再交给Fast R-CNN去做分类。

一、网络结构

在这里插入图片描述
作者把网络里生成proposals的地方成三个部分：
Radar Proposal Network + Image Proposal Network + Distance Refinement

二、Radar Proposal Network

下图红框就是radar proposal network：
在这里插入图片描述
步骤：

对每一个radar点生成2n个3D锚框
用找最小包围框的办法把3D锚框画到图像平面上；
依靠雷达点生产的2D proposals和图片卷积以后的特征图一起输入到Radar Proposal Refinement（RPR）里面去。RPR里面的Box Regressor会用在radar proposal里面的图像特征来对proposal的中心点进行回归（具体怎么做还没看代码）；Box classification会为每一个radar proposal估计一个表示proposal里面的物体是前景还是背景的objectness score。该文中正负例子的区分阈值和R-CNN系列的是一样的。

三、Image Proposal Network

在这里插入图片描述
图像的proposals生成还是沿用RPN，不过在卷积层的顶上加了一层fully connected distance regression layer用来简单估计深度。基于图像生成的proposals有两个好处：一个相比radar proposals，更不容易遗漏像行人这样的小物体；第二个是用两种不同的传感器生成proposals的话，结合起来可能可以互补一下，让结果更好。