基于视觉Transformer的目标检测

基于视觉Transformer的目标检测

无卷积骨干网络:金字塔Transformer,提升目标检测/分割等任务精度

https://github.com/whai362/PVT

例如,在参数数量相当的情况下,PVT+RetinaNet在COCO数据集上实现了40.4 AP,超过ResNet50+RetinNet(36.3 AP)4.1个绝对AP(见下图)。研究者希望PVT可以作为像素级预测的替代和有用的主干,并促进未来的研究。

图片

提供了新思路,比不上yolov系列,研究可以,做工业产品貌似不太适合。

YOLOS:

Transformer能否以最少的2D空间结构从纯粹的序列到序列的角度进行2D目标识别呢?

为回答该问题,我们提出了YOLOS(You Only Look at One Sequence),一系列基于朴素ViT(即尽可能少的进行修改)的目标检测模型。我们发现:在中等大小数据集ImageNet上预训练的YOLOS已经足以在COCO上取得极具竞争力的目标检测性能,比如:YOLOS-Base可以取得42.0boxAP指标。与此同时,我们还通过目标检测。讨论了当前预训练机制、模型缩放策略对于Transformer在视觉任务中的局限性。

一部分介绍:

致敬YOLO!华科提出YOLOS:基于视觉Transformer的目标检测_3D视觉工坊-CSDN博客

模型都不是特别小,跟yolov5比,感觉还是差一些。

最小74m,最大42.0的模型1.4G

GitHub - hustvl/YOLOS: You Only Look at One Sequence (https://arxiv.org/abs/2106.00666)

版权声明:本文为CSDN博主「AI视觉网奇」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/jacke121/article/details/120514732

AI视觉网奇

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

Lidar Object detection

3d object detection的一般的pipeline Anchor based vs Center based RPN 当前比较流行的3d目标检测pipeline,或是通过pillar,对3d点云进行编码