FAIR何恺明团队最新研究：定义ViT检测迁移学习基线

文章目录[隐藏]

Abstract

作者丨happy
编辑丨极市平台
本文原创首发于极市平台公众号，转载请获得授权并标明出处。

论文链接：https://arxiv.org/abs/2111.11429

本文是FAIR的何恺明团队关于ViT在COCO检测任务上的迁移学习性能研究。它以Mask R-CNN作为基线框架，以ViT作为骨干网络，探索了不同初始化策略对于模型性能的影响；与此同时，为尽可能保证对比的公平性，还对不同超参数进行了大量的实验；此外，为将ViT作为多尺度模式，参考XCiT对ViT不同部分的特征进行尺度调整以达成多尺度特征输出；为使得ViT模型能处理大分辨率图像，还对ViT的架构进行了改进，引入了全局与局部自注意力机制，进一步提升了模型性能取得了更佳的均衡。该文的一系列实验表明：masking机制的无监督学习机制(如MAE、BEiT)首次在COCO检测任务迁移学习中取得了令人信服的性能提升 。

Abstract

为测试预训练模型能否带来性能增益(准确率提升或者训练速度提升)，目标检测是一个常用的且非常重要的下游任务。面对新的ViT模型时，目标检测的复杂性使得该基线变得尤为重要(non-trivial )。然而架构不一致、缓慢训练、高内存占用以及未知训练机制等困难阻碍了标准ViT在目标检测任务上的迁移学习。

本文提出了训练技术以克服上述挑战，并采用标准ViT作为Mask R-CNN的骨干。这些工具构成了本文的主要目标：我们比较了五种ViT初始化，包含SOTA自监督学习方法、监督初始化、强随机初始化基线。

结果表明：近期提出的Masking无监督学习方法首次提供令人信服的迁移学习性能改善 。相比监督与其他自监督预训练方法，它可以提升

AP^{box}

$A P^{b o x}$ 指标高达4% ；此外masking初始化具有更好的扩展性，能够随模型尺寸提升进一步提升其性能。

全文链接：FAIR何恺明团队最新研究：定义ViT检测迁移学习基线

关注极市平台公众号，获取最新CV干货
在这里插入图片描述