Small Object Detection using Context and Attention(论文阅读笔记)

Small Object Detection using Context and Attention 论文阅读笔记

在这里插入图片描述
出处:2021 International Conference on Artificial Intelligence in Information and Communication (ICAIIC) Jeju Island, Korea

一、介绍

在这里插入图片描述

目标检测算法在各种环境下的应用存在许多局限性,特别是检测小物体仍然具有挑战性,因为它们的分辨率低,信息有限。

  1. 文章提出了一种使用上下文的目标检测方法,以提高检测小目标的准确性。该方法通过连接多尺度特征,将来自不同层次的附加特征作为上下文。
    在这里插入图片描述
  2. 提出了具有注意机制的目标检测,该机制可以聚焦于图像中的目标,并包含目标层的上下文信息。

实验结果表明,与传统的SSD相比,该方法对小目标的检测精度更高。此外,对于300×300的输入图像,在PASCAL VOC2007测试集上实现了78.1%的平均精度(mAP)。

二、相关工作

2.1 基于深度学习的目标检测

  1. R-CNN:利用深度学习进行物体检测的第一个尝试,但对于实时应用程序来说,它太慢了,因为它对每个候选区域都是顺序通过cnn的。
  2. Fast R-CNN:对所有候选区域只执行一次特征提取。但这两项工作仍然对区域建议使用了单独的阶段。
  3. YOLO、SSD:实时目标检测。

2.1 小目标检测

  1. SSD:提出减少大型目标的尺寸,以克服数据不足的问题。
  2. DSSD:对SSD的所有特征图都采用反卷积技术,得到按比例放大的特征图。但由于将反卷积模块应用于所有的特征图,增加了模型的复杂性,降低了速度。
  3. R-SSD:通过池化和反卷积集合不同尺度的特征得到比DSSD更高的准确率和更快的速度。
  4. 利用GAN将低分辨的特征变成高分辨率的特征。

2.1 视觉注意力网络

  1. 《K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R. Zemel, and Y . Bengio. Show, attend and tell: Neural image caption generation with visual attention. InInternational conference on machine learning, pages 2048–2057,2015.》利用视觉注意生成图像字幕。为了生成对应图像的标题,他们使用了LSTM 处理给定图像的相关部分。
  2. 《S. Sharma, R. Kiros, and R. Salakhutdinov. Action recognition using visual attention.arXiv preprint arXiv:1511.04119,2015.》将注意力机制应用于视频中的动作识别。
  3. 《F. Wang, M. Jiang, C. Qian, S. Yang, C. Li, H. Zhang,X. Wang, and X. Tang. Residual attention network for image classification.arXiv preprint arXiv:1704.06904, 2017.》通过叠加残差注意模块提高了ImageNet数据集的分类性能。

三、方法

3.1 Single Shot Multibox Detector (SSD)

在这里插入图片描述
文章以SSD为baseline,基于VGG16为骨干网络,添加图层来创建不同分辨率的feature map。从每一个特征,加上一个额外的卷积层来匹配输出通道,网络预测输出,包括bbox回归和目标分类。但在小对象上的性能仍然较低,VOC 2007的性能为20.7%,仍有很大的提升空间。

文章认为,第一,这是因为缺乏上下文信息来检测小对象。需从缺乏语义信息的浅层特征中提取小目标检测特征。第二,加入注意力模块来关注更重要的部分。

3.2 F-SSD: SSD with context by feature fusion

在这里插入图片描述
目标特征来自Conv4_3,上下文特征来自Conn7和Conv8_2。

由于3个特征层具有不同的空间大小,文章提出了如下的融合方法,并对上下文特征进行反卷积,同时,设置上下文特征通道数为目标特征通道数的一半,以至于不会压倒目标特征本身。
在这里插入图片描述

3.3 A-SSD: SSD with attention module

在这里插入图片描述
将一个两阶段的注意力模块加到了Conv4_3和Conv7之后。
残差注意力模块:
在这里插入图片描述
第一阶段的Down-up采样网络:
在这里插入图片描述
第二阶段的Down-up采样网络:
在这里插入图片描述
以及残差模块:
在这里插入图片描述

3.4 FA-SSD: Combining feature fusion and attention in SSD

在这里插入图片描述

四、实验

4.1 实验设置

backbone:VGG16
input size:300*300
训练集:VOC2007 and VOC2012 trainval datasets
测试集:VOC2007 test dataset

4.2 消融实验

在这里插入图片描述

4.3 推理时间

在这里插入图片描述

4.4 定性结果

在这里插入图片描述

4.5 注意力可视化

在这里插入图片描述

4.6 以ResNet为主干的实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.7 在 VOC2007 test上的结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

五、结论

文章提出的改进有:

  1. 利用上下文信息=融合不同尺度的特征
  2. 增加注意力机制

版权声明:本文为CSDN博主「勤勤恳恳小码牛」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/wjytbest/article/details/122094501

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

domain adaptation 小综述

前段时间为了一个项目读了一些domain adaptation的论文,希望了解领域背景和前沿,现在进行一个总结。 首先介绍下domain adaptation的概念,简单地说就是,在一个

FPN 特征金字塔 理解

Feature Pyramid Networks 对于Faster Rcnn使用FPN,cocoAP提升2.3个点,pascalAP提升3.8个点 1*1的conv,调整通道数,原论文中