文章目录[隐藏]
论文笔记之2020-AAAI-F3Net-F3Net:Fusion, Feedback and Focus for Salient Object Detection
论文地址:https://arxiv.org/pdf/1911.11445.pdf
代码地址:https://github.com/weijun88/F3Net
本文创新点
-
引入交叉特征模块对不同层次的特征进行融合,能够提取特征之间的共有部分,抑制彼此的背景噪声,补充缺失的部分。
-
提出了一种针对SOD的级联反馈解码器,该解码器能够将高分辨率和高语义的特征反馈给已有的特征,并对其进行修正和提炼,以生成更好的显著图。
-
设计了像素位置感知损失,为不同的位置赋予不同的权重。它可以更好地挖掘特征中包含的结构信息,帮助网络更加关注细节区域。
正文
模型架构
Cross Feature Module
CFM执行特征交叉以缓解特征之间的差异。该算法首先通过逐个元素相乘的方法提取low level features和high level features 之间的公共部分,然后通过逐个元素相加将它们分别与原low level features和high level features 合并。与已有研究中采用的直接相加或拼接相比,CFM避免了引入冗余信息到low level features和high level features 中,这可能会“污染”原有的特征,并给显著图的生成带来不利影响。通过多次特征交叉,low level features和high level features 将逐渐吸收彼此的有用信息进行互补,即low level features的噪声将被抑制,而high level features的边界将被锐化。
Cascaded Feedback Decoder
每个解码器由两个过程组成,即自下而上和自上而下。在自底向上的过程中,特征由高到低由CFM逐步聚合。聚合的特征将被监督并产生粗略的显著图。对于自上而下的过程,直接对上一次过程聚合的特征进行下采样,并添加到CFM导出的先前的多级特征中进行精化。这些改进后的特征将被发送到下一个解码器进行相同的处理。事实上,在CFD内部,多个解码器的两个进程一一相连,形成一个网格网络。多层次特征在这个网络中反复流动和细化。最后,这些特征将足够完整,以生成更精细的显著图。
损失函数
传统的BCE损失有三个缺点。首先,它独立计算每个像素的损失,忽略图像的全局结构。其次,在背景占主导地位的图片中,前景像素的损失将被稀释。第三,它对所有像素一视同仁。因此,我们提出了加权二元交叉熵(WBCE)损失。
每个像素都将被指定一个权重α。困难像素对应较大的α,而简单像素将被分配一个较小的像素。α可以作为像素重要性的指标,它是根据中心像素与周围像素的差值来计算的。
为了进一步使网络关注全局结构,我们引入了加权IOU(wIoU)损失,如公式所示。
它的目标是优化全局结构,而不是关注单个像素,并且不受分布不平衡的影响。但它仍然平等对待所有像素,并忽略像素之间的差异。与IOU损失不同,我们的wIOU损失将更多的权重赋予困难像素,以强调它们的重要性。
CFD中的每个子解码器对应一个。
总的损失函数:
第一项对应于所有子解码器损耗的平均值,第二项对应于辅助损耗的加权和,其中高层级的损耗因其误差较大而具有较小的权重。
实验
数据集
在五个数据集上进行测试——ECSSD、Pascal-S、DUTOMRON、 HKU-IS和DUTS。训练集使用DUTS-TR。
评价指标
MAE、Mean F-measure (mF)、structural similarity measure (Sα, α = 0.5) 、E-measure (Eξ) 、precision-recall (PR) and F-measure curves。
实验细节
设备:RTX 2080Ti
input size:352x352
数据增强:水平翻转、随机裁剪和多尺度输入图像。
骨干网络:Resnet-50(使用ImageNet预训练权重)。
优化器:SGD
学习率:主干0.005,其他部分设置为0.05(采用预热和线性衰减策略调整学习速率)
动量:0.9
权重衰减:0.0005
Batchsize:32
实验结果
消融实验
损失函数和各个模块的消融实验。
两个超参数的消融实验。
第一次写博客,如有不对的地方,请指正!
版权声明:本文为CSDN博主「CV小星」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_41994821/article/details/123019919
暂无评论