文章目录[隐藏]
1. 出处
2021 CVPR 貌似没中,我在谷歌学术和微软学术上都没搜到
2. 问题
已有的自监督方法不是专门为了检测中的一个重要任务——定位物体而设计的。
大多数已有的自监督方法只学习检测网络的部分结构,通常只是检测器的子网络,比如ResNet,只学习backbone对于检测模型是远远不够的。
3. 解决方案
提出了一个使用Region priors的Transformer进行目标检测的无监督预训练方法,叫作DETReg。作者受目标检测两个任务(分类和定位)的启发,合并自监督中两个互补的信号。
- 对于目标定位信号,使用现成的无监督区域生成方法,选择性搜索算法作为伪gt bbox,这种方法不需要训练,是一种低精度高召回率的方法。
- 分类信号来自目标embedding损失,鼓励不变的目标表示,通过这种方式推理目标类别。
DETReg通过引入2个关键的预训练任务,在无标签的数据上训练一个检测器,这两个任务分别是:
-
目标定位任务
这个任务的目标是不管类别是什么,训练模型来定位目标 -
目标嵌入任务
理解图像中目标的类别
作者使用SwAV来获得潜在目标的embeddings,并使用这些在预训练的时候监督DETReg目标embeddings。
4. 过程细节
4.1 选择性搜索算法
选择性搜索算法尝试对region proposals进行排序,因此更有可能是目标的物体排序在前。但region proposals数量巨大,排序不精确,因此,作者提出一种机制选择最好的在训练时作为proposals.
Top-K原则
Random-K原则
重要性采样
4.2 整体结构
4.3 设计了2个预训练任务
-
目标定位任务
以M个选择性搜索算法产生的bbox作为输入,通过最小化DETR预测和这M个框之间的不同来优化损失函数。
-
目标嵌入任务
使用SwAV对选择性搜索算法产生的M个框选出的图像区域学习表征
5. 启发
-
DETReg的优势
- 无监督,不需要任何标注
- 训练所有的DETR模型参数,不是只训练backbone
-
DETR
DETR首次建立了end-to-end目标检测器,消除了对anchor和NMS后处理的需要 -
用的现成的选择性搜索算法用于框定目标
版权声明:本文为CSDN博主「TEn%」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_37297763/article/details/120970861
暂无评论