Small Object Detection using Context and Attention（论文阅读笔记）

Small Object Detection using Context and Attention 论文阅读笔记

在这里插入图片描述
出处：2021 International Conference on Artificial Intelligence in Information and Communication (ICAIIC) Jeju Island, Korea

一、介绍

在这里插入图片描述

目标检测算法在各种环境下的应用存在许多局限性，特别是检测小物体仍然具有挑战性，因为它们的分辨率低，信息有限。

文章提出了一种使用上下文的目标检测方法，以提高检测小目标的准确性。该方法通过连接多尺度特征，将来自不同层次的附加特征作为上下文。
提出了具有注意机制的目标检测，该机制可以聚焦于图像中的目标，并包含目标层的上下文信息。

实验结果表明，与传统的SSD相比，该方法对小目标的检测精度更高。此外，对于300×300的输入图像，在PASCAL VOC2007测试集上实现了78.1%的平均精度(mAP)。

二、相关工作

2.1 基于深度学习的目标检测

R-CNN：利用深度学习进行物体检测的第一个尝试，但对于实时应用程序来说，它太慢了，因为它对每个候选区域都是顺序通过cnn的。
Fast R-CNN：对所有候选区域只执行一次特征提取。但这两项工作仍然对区域建议使用了单独的阶段。
YOLO、SSD：实时目标检测。

2.1 小目标检测

SSD：提出减少大型目标的尺寸，以克服数据不足的问题。
DSSD：对SSD的所有特征图都采用反卷积技术，得到按比例放大的特征图。但由于将反卷积模块应用于所有的特征图，增加了模型的复杂性，降低了速度。
R-SSD：通过池化和反卷积集合不同尺度的特征得到比DSSD更高的准确率和更快的速度。
利用GAN将低分辨的特征变成高分辨率的特征。

2.1 视觉注意力网络

《K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R. Zemel, and Y . Bengio. Show, attend and tell: Neural image caption generation with visual attention. InInternational conference on machine learning, pages 2048–2057,2015.》利用视觉注意生成图像字幕。为了生成对应图像的标题，他们使用了LSTM 处理给定图像的相关部分。
《S. Sharma, R. Kiros, and R. Salakhutdinov. Action recognition using visual attention.arXiv preprint arXiv:1511.04119,2015.》将注意力机制应用于视频中的动作识别。
《F. Wang, M. Jiang, C. Qian, S. Yang, C. Li, H. Zhang,X. Wang, and X. Tang. Residual attention network for image classification.arXiv preprint arXiv:1704.06904, 2017.》通过叠加残差注意模块提高了ImageNet数据集的分类性能。

三、方法

3.1 Single Shot Multibox Detector (SSD)

在这里插入图片描述
文章以SSD为baseline，基于VGG16为骨干网络，添加图层来创建不同分辨率的feature map。从每一个特征，加上一个额外的卷积层来匹配输出通道，网络预测输出，包括bbox回归和目标分类。但在小对象上的性能仍然较低，VOC 2007的性能为20.7%，仍有很大的提升空间。