Contrastive Embedding for Generalized Zero-Shot Learning

Contrastive Embedding for Generalized Zero-Shot Learning

1 Introduction

        GZSL在分类训练中存在原始特征空间远离语义信息从而导致缺乏辨别能力。文献提出一种混合GZSL框架,是基于特征生成方法和嵌入空间实现的,在特征生成模型的基础上嫁接了一个嵌入模型,由特征生成模型生成的真实可见特征和合成不可见特征映射到一个新的嵌入空间。主要贡献有以下三个方面:(1)提出了一种基于嵌入模型和基于特征生成模型相结合的混合GZSL框架;(2) 在我们的混合GZSL框架中,我们提出了一种对比嵌入,它可以同时利用类监督和实例监督;(3)我们在五个基准上评估了我们的GZSL模型,我们的方法可以在这些数据集上达到最新水平或具有竞争力的结果。

2 Methodology

2.1   A Hybrid GZSL Framework

        常用的语义嵌入方法依赖于结构化损失函数,因为语义描述符空间中的点积相似性,结构化损失要求嵌入的X比其他类别的描述符更接近其基本真值类别的语义描述符。结构化损失函数如下:

L_{se}^{real}(E)=E_{p(x,a)}[max(0,\Delta -a^\top E(x)+(a')^\top E(x))]

         因为对可见类的偏差,语义嵌入方法效果较差。近几年提出的合成不可见类的缺失训练样本,即特征生成方法学习。特征生成器试图通过生成无法区分的合成特征来愚弄鉴别器。特征生成方法希望将合成特征分布与原始特征空间中的真实特征分布相匹配。通过优化以下敌对目标,可以学习特征生成器网络和鉴别器网络:

V(G,D)=E_{p(x,a)}[logD(x,a)]+E_{p_{G}(\tilde{x},a)}[log(1-D(\tilde{x}, a))]

        在原始特征空间中,视觉特征通常不是很好的结构,因此对于GZSL分类来说是次优的。 为了将合成特征映射到嵌入空间,我们为合成特征引入以下嵌入损失:

L_{se}^{sync}(G,E)=E_{a}[max(0,\Delta -a^{\top }E(G(a,\epsilon ))+(a')^{\top }E(G(a,\epsilon)))]

         综上基本的混合GZSL的损失函数如下所示:

\underset{D}{max}\underset{G,E}{min}V(G,D)+L_{se}^{real}(E)+L_{se}^{sync}(G,E)

2.2 Contrastive Embedding

2.2.1 Instance-level contrastive embedding

        在嵌入空间中,作者采用K+1的方式分类子问题增强分类效果,其中K是K个负样本,1是1个正样本,添加了非线性投影头以学习嵌入规则。该K+1路分类问题的交叉熵损失计算如下:

L_{ce}^{ins}(z_{i},z^{+})=-log\frac{exp(z_{i}^{\top }z^+/\tau _{e})}{exp(z_{i}^{\top }z^+/\tau _{e})+\sum_{k=1}^{K}exp(z_{i}^{\top }z_{k}^{-}/\tau _{e})}

         大量的反例鼓励嵌入函数捕获嵌入空间中同一类样本(真实样本和合成样本)共享的强鉴别信息和结构。为了学习嵌入函数E、非线性投影和特征生成器网络G,计算实例级对比嵌入的损失函数,作为在真实和合成示例中随机选择的对z_{i}z^{+}上计算的预期损失:

L_{ce}^{ins}(G,E,H)=E_{z_{i},z^+}[L_{ce}^{ins}(z_{i},z^+)]

2.2.2  Class-level contrastive embedding

        由于没有将嵌入空间限制为语义描述符空间,因此无法直接计算嵌入数据点和语义描述符之间的点积相似度。 文献学习了比较器网路F(h,a),用于测量嵌入和语义描述符之间的相关性得分。接助于比较器网络F,可以将嵌入空间中随机选择的点h_{i}的类级对比嵌入损失作为S方式分类子问题。该分类问题的交叉熵损失如下:

L_{ce}^{cls}(h_{i},a^+)=-log\frac{exp(F(h_{i},a^+)/\tau _{s})}{\sum_{s = 1}^{S}exp(F(h_{i}, a_{s})/\tau _{s})}

         为类级对比嵌入定义了以下损失函数:

L_{ce}^{cls}(G,E,F)=E_{h_{i},a^+}[L_{ce}^{cls}(h_{i},a^{+})]

         因此,具有对比嵌入的最终混合GZSL框架(CE-GZSL)的总损失公式如下:

\underset{D}{max}\underset{G,E,H,F}{min}V(G,D)+L_{ce}^{ins}(G,E,H)+L_{ce}^{cls}(G,E,F)

3 Experimental Studies

3.1 Datasets

        作者在ZSL的五个基准数据集上进行评估:Animals with Attributes 1&2 (AWA1 &AWA2),Caltech-UCSD Birds-200-2011 (CUB) ,Oxford Flowers (FLO)和 SUN Attribute (SUN)。作者使用在ImageNet-1K上预先训练过的ResNet-101为所有数据集提取2048维CNN特征,无需微调。此外,还采用建议的拆分(PS)将每个数据集上的所有类划分为可见类和不可见类。

3.2  Performance evaluation

        在传统的ZSL场景下,只评估未看到类的每类Top-1精度。在GZSL场景下,我们分别评估已看到类和未看到类的Top-1精度。GZSL的性能通过其谐波平均值来衡量:

H=2\times S\times U/(S+U)

3.3 Experimental Results

         在表1中,将CE-GZSL方法与最先进的GZSL方法进行了比较。与基于GZSL中最先进的生成模型的IZF相比,混合GZSL方法与最简单的生成模型相结合,仍然取得了具有竞争力的结果。

         在表2中,报告了常规ZSL情景下CE-GZSL的结果。在CUB上,该方法也取得了优异的性能,在最近的十种方法中,CE-GZSL是唯一一种在常规ZSL条件下性能>70.0的方法。

         在表3中,说明了GZSL混合策略的有效性。结果表明,混合GZSL策略是有效的,新的嵌入空间优于语义空间。

         在表4中,研究了混合GZSL框架中不同空间和不同嵌入模型的影响。无论是在语义描述符空间还是在新的嵌入空间中,提出的“CE”总是优于“SE”。这说明我们的对比嵌入(CE)得益于在传统语义嵌入(SE)中被忽略的实例监督。

         在表5中,分别评估了对比嵌入模型中的实例级监控和类级监控。当同时考虑实例级监控和类级监控时,该方法达到了改进的目的,导致了更好的结果。这意味着该方法得益于实例级监控和类级监控的结合。

4 Conclusion 

        在本文中,文献提出了一个混合GZSL框架,集成了嵌入模型和生成模型。该混合GZSL框架将真实和合成的视觉样本映射到嵌入空间,在嵌入空间中我们可以训练一个监督识别模型作为最终的GZSL分类器。具体来说,在混合GZSL框架中提出了一个对比嵌入模型。对比嵌入模型不仅可以利用类级监控,还可以利用实例级监控。在现有的GZSL研究中,后者往往被忽视。实验表明,对比嵌入混合GZSL框架(CE-GZSL)在三个基准数据集上达到了最新水平,在两个数据集上达到了次优水平。

版权声明:本文为CSDN博主「曾英俊」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/yanhu6955/article/details/121363149

曾英俊

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

Day 14 - 安装与执行 YOLO

Day 14 - 安装与执行 YOLO 在 介绍影像辨识的处理流程 - Day 10 有提到 YOLO 模型是由 Joseph Redmon 所提出,而到了 YOLOV4 后才换成另外一群人继续发展,

Cross Stage Partial Network(CSPNet)

Cross Stage Partial Network(CSPNet) 一. 论文简介 降低计算量,同时保持或提升精度 主要做的贡献如下(可能之前有人已提出): 提出一种思想,特征融合方式(降低计算量的