Abstract

在这里插入图片描述

简单来说：实现了无需人工提供边界框标注OVD检测框架
如何实现：预先训练的 vision-language 模型的 localization 能力和生成可直接用于训练目标检测的伪边界框标签来实现这一点。
**效果：**在COCO新类别上，作者的训练没有配备手动bounding box标签比使用了人工标注bounding box 框进行训练的(SOTA)高出3%的AP，当使用bounding box标签作为我们的基线时，作者的方法超过SOTA 8%的AP。
在这里插入图片描述

1. Introduction

在这里插入图片描述
提及到了ZSD,OVD的检测方法，它们都需要基类有bounding box label。

在这里插入图片描述
作者的想法借力于来自大规模弱对齐图像-标题对进行预训练的网络 得到的视觉语言模型 Vision-language models。
它们在图像分类中表现出惊人的零镜头性能，在文本-视觉区域对齐任务(如引用表达式)中也表现出良好的结果，这意味着它们具有很强的定位能力

如何实现? pseudo bounding box label如何生成的?

在这里插入图片描述

从大规模图像标题数据集中自动获取不同对象集合的伪框标注。
具体地说，给定一个预先训练的视觉语言模型和一个图像-标题对，我们在图像中计算一个** activation map (Grad-
CAM [24])激活映射**，它对应于caption中提到的感兴趣的对象。然后，我们将activation map(激活图)转换为对应对象类别的pseudo bounding box label。然后，我们的开放词汇表检测器由这些伪框标签直接监督，这样就可以在没有人为提供边界框注释的情况下训练对象检测器。

2. Related Work

3. Related Work

两部分: Pseudo Box Labels 如何产生? 如何用于OVD?
Generating Pseudo Box Labels
Open vocabulary Object Detection with Pseudo Labels

3.1. Generating Pseudo Box Labels

在这里插入图片描述
图2就是作者 pseudo bouding box label 生成过程的说明。系统的输入是图像-标题对。我们使用图像和文本编码器来提取图像及其相应标题的视觉和文本嵌入(其实就是特征向量)。然后通过图像与文本的交叉注意交互获得多模态特征。我们在预定义的对象词汇表中保留感兴趣的对象。对于嵌入caption中的每个感兴趣的对象(例如上图中的球拍)，我们使用Grad-CAM将其激活图activation map 可视化到图像中。这张图显示了图像区域对目标词最终表示的贡献。最后， 通过选择与activation map 重叠最大的 object proposal 作为 pseudo bouding box label.

3.2. Open vocabulary Object Detection with Pseudo Labels

在这里插入图片描述
图像由特征提取器处理，然后是RPN。然后通过对区域建议进行RoI pooling/RoI align，提取出基于区域的特征，得到相应的visual embeeding 。在训练过程中，鼓励同一对象的视觉和文本embedding 的相似性.

Experiment

在这里插入图片描述
图4。在COCO上生成的伪边界框注释的可视化。红框表示成功案例，黄框表示失败案例。我们的伪标签生成器可以生成COCO的类别列表中没有包含的对象(拖鞋、罐子和馅饼)。当存在多个相同类别的对象实例时，生成器可能会失败(例如，第三列中的雨伞)，如果不显示在标题中(例如，最后一列中的汽车)，则无法捕获对象。