![]()
Asymmetric Contextual Modulation for Infrared Small Target Detection
本文开源代码及单帧红外小目标检测数据集:
code:https://github.com/YimianDai/open-acm
sirst:https://github.com/YimianDai/sirst
427张短波、中波,950nm红外图像,5种标注方式 (a)类别标签 (b) 实例分割 © 边界框 (d) 语义分割 (e) 实例定位

模型驱动方法存在的缺点:
- 具有全局唯一显着性、稀疏性或高对比度的目标假设在现实世界图像中不成立。 真正的暗淡目标可能不显眼且对比度低,而许多背景干扰物满足这些假设,从而导致许多虚景(误报)。
- 许多超参数,对图像内容敏感且高度相关,这对于高度可变的场景不够稳健。
- 缺乏对整体场景的高层次理解,无法检测到极端暗淡的场景并去除显着的干扰因素。(需将高级上下文语义信息嵌入模型进行更好的检测)。
本文动机:
- 在红外小目标检测领域研究的深度学习方法很少。
- 缺乏公共数据集
- 缺少目标内在信息(SPIE将红外小目标定义为在256×256图像里具有小于 80 像素(9×9)的总空间范围)
- 深度网络即需要学习语义表示也需要兼顾细节特征
- 现有先进检测网络为通用图像数据设计,不适合直接用于红外小目标检测。需要进行以下改进:
- 重新定制下采样方案。(随着网络的加深,红外小目标的特征几乎无法保留。)
- 重新定制注意力模块。(现有的注意力模块倾向于聚合全局或远程上下文,潜在的假设是对象相对较大并且更全局地分布,全局注意力模块会削弱红外小目标的特征。)
- 重新定制特征融合方法。(小目标可能被深层背景,单向、自上而下的方式融合跨层特征可能不起作用。)
评价指标:
-
nIoU(the normalized Intersection over Union)
n
I
o
U
=
1
N
∑
i
N
T
P
[
i
]
T
[
i
]
+
P
[
i
]
−
T
P
[
i
]
\mathrm{nIoU}=\frac{1}{N}\sum_{i}^{N}\frac{\mathrm{TP}[i]}{\mathrm{T}[i]+\mathrm{P}[i]-\mathrm{TP}[i]}
nIoU=N1i∑NT[i]+P[i]−TP[i]TP[i]
其中,N 是总样本数。 -
ROC(the receiver operating characteristic)
ACM模型(Asymmetric Contextual Modulation)

其中X是低级(low-level)特征,Y是高级(high-level)特征,C为通道数,H×W表示特征图大小。
-
Top-Down Modulation
-
高层特征提供了更准确的目标语义信息;
-
全局信道上下文是一个称职的调制信号。
-
-
Bottom-Up Modulation
- 用低级特征的空间细节丰富高级特征。
-
Asymmetric Contextual Modulation Module
同时利用自上而下(Top-Down)的全局注意力调制和自下而上(Bottom-Up)的局部注意力调制来交换多尺度上下文,以便对语义信息和空间细节进行更丰富的编码。
Z
=
G
(
Y
)
⊗
X
+
L
(
X
)
⊗
Y
\mathbf{\ Z}=\mathbf{G(Y)}\otimes\mathbf{X} + \mathbf{L(X)}\otimes\mathbf{Y}
Z=G(Y)⊗X+L(X)⊗Y

示例:FPN 和 UNet
红外小目标检测问题看成是语义分割问题,将ACM模型运用到FPN及U-Net网络中

主干网络采用ResNet-20,如下所示,b = 3。为了保留小目标,下采样仅在 Stage-2 和 Stage-3 的第一个卷积层执行。

实验结果:
-
Ablation Study
- 下采样方案(Regular-ACM特征图被下采样4倍, ACM-本文下采样方案)。
- 双向注意力调制的影响(TopDownLocal、BiLocal)
- 非对称注意力调制的影响(BiLocal、BiGlobal、ACM)


-
与最先进方法的比较
IoU 和 nIoU 反映的是固定阈值下的分割效果;ROC 反映的是滑动阈值下的整体效果。


版权声明:本文为CSDN博主「WNANPHOTO」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_39611130/article/details/122448153
![]()

暂无评论