3DETR：An end-to-end transformer model for 3D object detection

2024-01-05 658

VoteNet框架:

PointNet++模型，它使用多个专门为3D点云设计的下采样（set-aggregation）和上采样（feature-propagation）操作的组合。

预测：

每个点为长方体的中心坐标“投票”

选票在固定半径内聚合以获得“中心”

围绕“中心”预测边界框

将偏置归纳到3DETR中，局部特征聚合比全局特征聚合更重要。

通过对self-attention应用掩模，可以很容易地在transformer中实现这种归纳偏置。

每个encode层应用一个二进制maske of N''×N''的自我注意操作。掩码中的第i行指明了N''中哪些点位于点i的l2半径内。我们使用[0.16,0.64,1.44]的半径值。

版权声明：本文为CSDN博主「sun_m_s」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_35627757/article/details/122312307

标签：3D · transformer · 目标检测