【论文笔记】Center-based 3D Object Detection and Tracking

文章目录[隐藏]

bacakbone
CenterPoint detection head
Experiments

bacakbone

本篇CenterPoint是基本沿用了CenterNet的方法，基本上是在CenterNet网络上做一些扩展工作。
主干网络选用的是Pointpillars和VoxelNet的方法

在这里插入图片描述
因此本文的效果也是单阶段网络，并且实现了多目标检测的效果。

从实验结果来看，由于PointPillars没有3D conv的模块，因此速度相比较于VoxelNet要更加快，而VoxelNet由于有更丰富的编码信息，因此结果更加精确一些。

由于nuSences数据集和Kitti数据集的不同，nuSences数据集中的检测范围为：X,Y轴：[-51.2,51.2]m Z轴：[-5,3]m
kitti为：x,y,z:[(0, 70.4), (-40, 40), (-3, 1)] (车)
[(0, 48), (-20,20), (-2.5, 0.5)] （人，自行车）

从对比可以看得出，nuSences的数据集范围更大。

CenterPoint detection head

对比二维目标检测算法的CenterNet的Detection head。最终回归的结果大致可以分为：

要检测物体的中心（目标的高斯分布，分类）
回归框

在这里插入图片描述

最终CenterPoint的回归结果也大致类似：
在这里插入图片描述

总共分为四个结果：

热力图（高斯分布，表示物体中心）
旋转角度( $e=(sin(\alpha),cos(\alpha)) e=(sin(α),cos(α)))$
回归框大小（
偏置offset( $o_x ox, o y o_y oy, o z o_z oz)$

Target Heatmap

(用于判断类别)

热力图：

∈

[

]

∗

Y\in[0,1]^{w*h*K}

$Y \in [0, 1]^{w * h * K}$

$K$ 表示

$K$ 个classes，通过高斯核：

(

−

(

−

)

Y_{p,k}=exp({-(p-q_i)^2 \over 2\sigma_i^2})

$Y_{p, k} = e x p (\frac{- ( p - q _{i} ) ^{2}}{2 σ _{i 2}})$

高斯核半径

\sigma

$σ$ 为：

(

)

\sigma=max(f(wl,r),\tau)

$σ = m a x (f (w l, r), τ)$
定义了

0.1

\tau=2,r=0.1

$τ = 2, r = 0.1$

$f$ 为ConerNet中计算高斯核半径的公式
分部于热力图heatmap上。
在这里插入图片描述

$p$ 为像素点（~~其实是八个角点~~），

q_i

$q_{i}$ 为每个注释的对象中心点，因此可以看出，热力图回归是一个用物体中心点监督的结果。每个高斯峰值可以用来计算出一个物体的中心。

loss使用focal loss来控制，对分类结果的负结果更好抑制。

−

∑

{

(

−

)

log

⁡

(

)

(

−

)

(

)

log

⁡

(

−

)

otherwise

L_{hm}=-\frac{1}{N} \sum_{\mathbf{p}, k}\left\{\begin{array}{ll} \left(1-\hat{Y}_{\mathbf{p}, k}\right)^{\alpha} \log \left(\hat{Y}_{\mathbf{p}, k}\right) & \text { if } Y_{\mathbf{p}, k}=1 \\ \left(1-Y_{\mathbf{p}, k}\right)^{\beta}\left(\hat{Y}_{\mathbf{p}, k}\right)^{\alpha} \log \left(1-\hat{Y}_{\mathbf{p}, k}\right) & \text { otherwise } \end{array}\right.

$L_{h m} = - \frac{1}{N} p, k \sum ⎩ ⎨ ⎧ (1 - Y^_{p, k})^{α} lo g (Y^_{p, k}) (1 - Y_{p, k})^{β} (Y^_{p, k})^{α} lo g (1 - Y^_{p, k}) if Y_{p, k} = 1 otherwise$

Detection head

回归框并不是完全平行于坐标轴的，所以backbone需要学习旋转不变性和旋转等变性（rotational invariance and equivariance）文中将这部分Detection head最终的结果分为中心预测和回归预测，他们共用第一层的可变卷积（deformable convolution），
在这里插入图片描述