3DETR:An end-to-end transformer model for 3D object detection

VoteNet框架:

PointNet++模型,它使用多个专门为3D点云设计的下采样(set-aggregation)和上采样(feature-propagation)操作的组合。

预测:

每个点为长方体的中心坐标“投票”

选票在固定半径内聚合以获得“中心”

围绕“中心”预测边界框

将偏置归纳到3DETR中,局部特征聚合比全局特征聚合更重要。

通过对self-attention应用掩模,可以很容易地在transformer中实现这种归纳偏置。

每个encode层应用一个二进制maske of N''×N''的自我注意操作。掩码中的第i行指明了N''中哪些点位于点i的l2半径内。我们使用[0.16,0.64,1.44]的半径值。

版权声明:本文为CSDN博主「sun_m_s」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_35627757/article/details/122312307

sun_m_s

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

【MV-3D】----多视图的3D目标检测网络

一、前言 目前主流的空间点云检测主要有两种。一种是直接以三维点云作为输入,直接送入卷积网络或者转化为体素送入。另一种是将3D点云映射到2D,主要为鸟瞰图或者前视图。一般来说第一种方法目标的检测信息比较丰富&#xff