论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

论文链接

在该论文中,自下而上的机制(基于 Faster R-CNN)提出了图像区域,每个区域都有一个相关的特征向量,而自上而下的机制决定了这些特征向量的权重

3.1 节,描述了实现自下而上注意模型的方法;3.2 节,概述了图像字幕模型的架构;3.3 节,概述了 VQA 模型。对于自上而下的注意力组件,两个模型(字幕模型和VQA模型)都使用简单的一次性注意力机制,而不是最近模型都使用的更复杂的方案,例如堆叠、多头或双向注意力 [47, 16, 20, 28 ] 等。

自下而上的注意力模型

本文根据边界框定义图像空间区域特征,并使用 Faster R-CNN 实现自下而上的注意力,Faster R-CNN 是一种对象检测模型,旨在识别图像中属于某些类的对象实例并使用边界框对其进行定位,其他区域提案网络也可以作为注意力机制进行训练。
Faster R-CNN in conjunction with the ResNet-101 [13] CNN.
Faster R-CNN 检测目标分为两步:
1、 Region Proposal Network(RPN),预测对象proposals;在每个空间位置,网络预测一个与类别无关的对象性分数和一个多尺度和长宽比的锚框的边界框细化。并使用具有交集交叉(IoU)阈值的贪婪非最大值抑制,选择顶部框建议(IOU>0.7)作为第二阶段的输入。
2、使用感兴趣区域(RoI)池化为每个框建议(box proposal)提取一个小特征图(例如 14×14)。 然后将这些特征图一起批处理,作为 CNN (ResNet-101 CNN)最终层的输入。 模型的最终输出包括类标签上的 softmax 分布和每个属于特定于类的框建议的边界框细化。

为了生成用于图像字幕或 VQA 的图像特征输出集 V,我们获取模型的最终输出,并使用 IoU 阈值对每个对象类执行非最大抑制。然后我们选择任何类别检测概率超过置信阈值的所有区域,对于每个选定的区域 i,vi 被定义为来自该区域的平均池化卷积特征,因此图像特征向量的维度 D 为 2048。

添加属性预测器

为了预训练自下而上的注意力模型,首先使用经过在 ImageNet 上预训练过的 ResNet-101 初始化 Faster R-CNN,然后在Visual Genome 数据集上进行训练。 为了帮助学习良好的特征表示,添加了一个额外的训练输出来预测属性类(除了对象类)。 为了预测区域 i 的属性,将平均池化卷积特征 vi 与真实对象类的学习到的嵌入连接起来,并将其输入一个额外的输出层,该输出层定义为每个属性类以及“无属性”类的 softmax 分布,原始的 Faster R-CNN 多任务损失函数包含四个组件,分别定义在 RPN 和最终对象类建议的分类和边界框回归输出上,本文保留这些组件并添加一个额外的多类损失组件来训练属性预测器。

图像字幕模型

给定一组图像特征 V ,本文提出的字幕模型使用“软”自上而下的注意力机制,在字幕生成过程中对每个特征进行加权,使用现有的部分输出序列作为上下文。字幕模型由使用标准实现的两个 LSTM [15] 层组成:top-down visual attention model and language model。
模型结构注意力 LSTM 模型的输入:语言 LSTM 状态、图像的整体内容和到目前为止生成的部分字幕输出的最大上下文。 词嵌入是从随机初始化中学习的,没有预训练。
语言模型
贴大佬总结:Up-down 模型笔记

版权声明:本文为CSDN博主「SCUT_JQ」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_44140339/article/details/121588880

SCUT_JQ

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐