红外弱小目标检测之“Asymmetric Contextual Modulation for Infrared Small Target Detection“阅读笔记

文章目录[隐藏]

Asymmetric Contextual Modulation for Infrared Small Target Detection

Asymmetric Contextual Modulation for Infrared Small Target Detection

本文开源代码及单帧红外小目标检测数据集：

code：https://github.com/YimianDai/open-acm

sirst：https://github.com/YimianDai/sirst

427张短波、中波，950nm红外图像，5种标注方式 (a)类别标签 (b) 实例分割 © 边界框 (d) 语义分割 (e) 实例定位

在这里插入图片描述

模型驱动方法存在的缺点：

具有全局唯一显着性、稀疏性或高对比度的目标假设在现实世界图像中不成立。真正的暗淡目标可能不显眼且对比度低，而许多背景干扰物满足这些假设，从而导致许多虚景(误报)。
许多超参数，对图像内容敏感且高度相关，这对于高度可变的场景不够稳健。
缺乏对整体场景的高层次理解，无法检测到极端暗淡的场景并去除显着的干扰因素。（需将高级上下文语义信息嵌入模型进行更好的检测）。

本文动机：

在红外小目标检测领域研究的深度学习方法很少。
- 缺乏公共数据集
- 缺少目标内在信息（SPIE将红外小目标定义为在256×256图像里具有小于 80 像素（9×9）的总空间范围）
- 深度网络即需要学习语义表示也需要兼顾细节特征
现有先进检测网络为通用图像数据设计，不适合直接用于红外小目标检测。需要进行以下改进：
- 重新定制下采样方案。（随着网络的加深，红外小目标的特征几乎无法保留。）
- 重新定制注意力模块。（现有的注意力模块倾向于聚合全局或远程上下文，潜在的假设是对象相对较大并且更全局地分布，全局注意力模块会削弱红外小目标的特征。）
- 重新定制特征融合方法。（小目标可能被深层背景，单向、自上而下的方式融合跨层特征可能不起作用。）

评价指标：

nIoU（the normalized Intersection over Union）

n

I

o

U

=

1

N

∑

i

N

T

P

[

i

]

T

[

i

]

+

P

[

i

]

−

T

P

[

i

]

\mathrm{nIoU}=\frac{1}{N}\sum_{i}^{N}\frac{\mathrm{TP}[i]}{\mathrm{T}[i]+\mathrm{P}[i]-\mathrm{TP}[i]}

$n I o U = \frac{1}{N} i \sum N \frac{T P [ i ]}{T [ i ] + P [ i ] - T P [ i ]}$
其中，N 是总样本数。
ROC（the receiver operating characteristic）

ACM模型（Asymmetric Contextual Modulation）

在这里插入图片描述

其中X是低级(low-level)特征，Y是高级(high-level)特征，C为通道数，H×W表示特征图大小。

Top-Down Modulation
1. 高层特征提供了更准确的目标语义信息；
2. 全局信道上下文是一个称职的调制信号。
Bottom-Up Modulation
1. 用低级特征的空间细节丰富高级特征。
Asymmetric Contextual Modulation Module

同时利用自上而下(Top-Down)的全局注意力调制和自下而上(Bottom-Up)的局部注意力调制来交换多尺度上下文，以便对语义信息和空间细节进行更丰富的编码。

Z

=

G

(

Y

)

⊗

X

+

L

(

X

)

⊗

Y

\mathbf{\ Z}=\mathbf{G(Y)}\otimes\mathbf{X} + \mathbf{L(X)}\otimes\mathbf{Y}

$Z = G (Y) \otimes X + L (X) \otimes Y$

示例：FPN 和 UNet

红外小目标检测问题看成是语义分割问题，将ACM模型运用到FPN及U-Net网络中

在这里插入图片描述

主干网络采用ResNet-20，如下所示，b = 3。为了保留小目标，下采样仅在 Stage-2 和 Stage-3 的第一个卷积层执行。

在这里插入图片描述

实验结果：

Ablation Study
- 下采样方案(Regular-ACM特征图被下采样4倍， ACM-本文下采样方案)。
- 双向注意力调制的影响(TopDownLocal、BiLocal)
- 非对称注意力调制的影响(BiLocal、BiGlobal、ACM)
与最先进方法的比较

IoU 和 nIoU 反映的是固定阈值下的分割效果；ROC 反映的是滑动阈值下的整体效果。