文章目录[隐藏]

论文传送门

https://arxiv.org/pdf/1612.01105.pdf

文章贡献

提出了一个金字塔场景分析网络 (pyramid scene parsing network)，能将难解析场景的语境特征嵌入基于FCN预测框架中
对基于深度监督损失函数的 ResNet 提出了一种有效的优化策略
构建了一个实用的场景分析和语义分割系统，其中包括所有关键的实现细节

概述

场景解析 (Scene Parsing) 的难度与场景的标签密切相关。目前场景解析多数依赖于 FCN ，但由于 FCN 缺乏合适的策略利用全局场景类别线索

语境关系不匹配 (Mismatched Relationship)：语境关系在对复杂场景的理解中极为重要。例如下图第一行，在水面上有很大的概率是 'boat' 而不是 'car' ，因此，缺乏收集语境信息的能力会增大错误分类的概率
类别混淆 (Confusion Categories)：许多类别标签在分类时容易出现混淆。例如下图第二行，FCN 把大厦的一部分识别成建筑物，但这应该只是一者，不能两者兼有。可以利用类别之间的关系解决上述问题
不明显的类别 (Inconspicuous Classes)：模型可能会忽略小的物体，相反，大的物体因超过FCN的感受野导致预测不连续。例如下图第三行，枕头与床单外观相似，难以被分割。为提高对非常小或非常大的对象的识别能力，应该特别注意包含不明显类别物体的不同子区域

针对这些存在的问题，作者提出了能将像素特征进行扩展的pyramid scene parsing network（PSPNet）模块，该模块能够聚合不同区域的上下文信息，从而提高获取全局信息的能力，此外，作者还提出了一种深度监督损失函数的优化策略(optimization strategy with deeply supervised loss)

网络结构

Pyramid Pooling Module

论文提出了一个具有层次全局优先级，包含不同尺度、不同子区域间关系的分层全局信息，称为Pyramid Pooling Module (PSP模块) ，如下图 (c) 所示

红色突出显示为最粗糙的层级，通过全局池化生成单个 bin 输出
后面三行是不同尺度的池化特征，每一层输出包含不同尺度的特征图
为保持全局特征的权重，在每个金字塔层级后使用 1x1 卷积，当某个层级维数为 N 时，即可将语境特征的维数降到原始特征的 1/N
通过双线性插值直接对低维特征图进行上采样，使其与原始特征图尺度相同
将 N 个不同尺度的特征图拼接为最终的金字塔池化全局特征

网络整体架构

图 (a) 中输入图像，使用带有扩展网络策略且预训练过的 ResNet 模型来提取特征图，特征图尺寸为输入图像的1/8
图 (c) 通过 Pyramid Pooling Module 来获取语境信息，最终将 N 个不同尺度特征图融合为全局特征
最后，在（d）中通过一层卷积层生成最终的预测图

损失函数

论文在 ResNet101 的基础上进行改进，除了最后 softmax 做 loss1 之外，还会在第四级残差模块res4b22 处用辅助函数 loss2 来监督产生的初试结果，两个 loss 一起传播，通过给予不同权重来优化参数。实验证明，这样做可以加快训练的进程。测试阶段，放弃辅助函数 loss2 ，只通过主分支来优化最终的预测。

版权声明：本文为CSDN博主「Andrew Xiao」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/m0_60875396/article/details/122592357

【语义分割】PSPNet

论文传送门

文章贡献

概述

网络结构

Pyramid Pooling Module

网络整体架构

损失函数

AlexeyAB DarkNet YOLOv3 Loss计算全解析

机器视觉需求20231226

论文传送门

文章贡献

概述

网络结构

Pyramid Pooling Module

网络整体架构

损失函数

AlexeyAB DarkNet YOLOv3 Loss计算全解析

机器视觉需求20231226

相关推荐

搜索

【语义分割】PSPNet