Small Object Detection using Context and Attention 论文阅读笔记
出处:2021 International Conference on Artificial Intelligence in Information and Communication (ICAIIC) Jeju Island, Korea
一、介绍
目标检测算法在各种环境下的应用存在许多局限性,特别是检测小物体仍然具有挑战性,因为它们的分辨率低,信息有限。
- 文章提出了一种使用上下文的目标检测方法,以提高检测小目标的准确性。该方法通过连接多尺度特征,将来自不同层次的附加特征作为上下文。
- 提出了具有注意机制的目标检测,该机制可以聚焦于图像中的目标,并包含目标层的上下文信息。
实验结果表明,与传统的SSD相比,该方法对小目标的检测精度更高。此外,对于300×300的输入图像,在PASCAL VOC2007测试集上实现了78.1%的平均精度(mAP)。
二、相关工作
2.1 基于深度学习的目标检测
- R-CNN:利用深度学习进行物体检测的第一个尝试,但对于实时应用程序来说,它太慢了,因为它对每个候选区域都是顺序通过cnn的。
- Fast R-CNN:对所有候选区域只执行一次特征提取。但这两项工作仍然对区域建议使用了单独的阶段。
- YOLO、SSD:实时目标检测。
2.1 小目标检测
- SSD:提出减少大型目标的尺寸,以克服数据不足的问题。
- DSSD:对SSD的所有特征图都采用反卷积技术,得到按比例放大的特征图。但由于将反卷积模块应用于所有的特征图,增加了模型的复杂性,降低了速度。
- R-SSD:通过池化和反卷积集合不同尺度的特征得到比DSSD更高的准确率和更快的速度。
- 利用GAN将低分辨的特征变成高分辨率的特征。
2.1 视觉注意力网络
- 《K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R. Zemel, and Y . Bengio. Show, attend and tell: Neural image caption generation with visual attention. InInternational conference on machine learning, pages 2048–2057,2015.》利用视觉注意生成图像字幕。为了生成对应图像的标题,他们使用了LSTM 处理给定图像的相关部分。
- 《S. Sharma, R. Kiros, and R. Salakhutdinov. Action recognition using visual attention.arXiv preprint arXiv:1511.04119,2015.》将注意力机制应用于视频中的动作识别。
- 《F. Wang, M. Jiang, C. Qian, S. Yang, C. Li, H. Zhang,X. Wang, and X. Tang. Residual attention network for image classification.arXiv preprint arXiv:1704.06904, 2017.》通过叠加残差注意模块提高了ImageNet数据集的分类性能。
三、方法
3.1 Single Shot Multibox Detector (SSD)
文章以SSD为baseline,基于VGG16为骨干网络,添加图层来创建不同分辨率的feature map。从每一个特征,加上一个额外的卷积层来匹配输出通道,网络预测输出,包括bbox回归和目标分类。但在小对象上的性能仍然较低,VOC 2007的性能为20.7%,仍有很大的提升空间。
文章认为,第一,这是因为缺乏上下文信息来检测小对象。需从缺乏语义信息的浅层特征中提取小目标检测特征。第二,加入注意力模块来关注更重要的部分。
3.2 F-SSD: SSD with context by feature fusion
目标特征来自Conv4_3,上下文特征来自Conn7和Conv8_2。
由于3个特征层具有不同的空间大小,文章提出了如下的融合方法,并对上下文特征进行反卷积,同时,设置上下文特征通道数为目标特征通道数的一半,以至于不会压倒目标特征本身。
3.3 A-SSD: SSD with attention module
将一个两阶段的注意力模块加到了Conv4_3和Conv7之后。
残差注意力模块:
第一阶段的Down-up采样网络:
第二阶段的Down-up采样网络:
以及残差模块:
3.4 FA-SSD: Combining feature fusion and attention in SSD
四、实验
4.1 实验设置
backbone:VGG16
input size:300*300
训练集:VOC2007 and VOC2012 trainval datasets
测试集:VOC2007 test dataset
4.2 消融实验
4.3 推理时间
4.4 定性结果
4.5 注意力可视化
4.6 以ResNet为主干的实验
4.7 在 VOC2007 test上的结果
五、结论
文章提出的改进有:
- 利用上下文信息=融合不同尺度的特征
- 增加注意力机制
版权声明:本文为CSDN博主「勤勤恳恳小码牛」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/wjytbest/article/details/122094501
暂无评论