1. 将整个图片输入到一个基础卷积网络,得到feature map
2.原图中通过选择性搜索(SS)得到候选区域直接映射到feature map中对应位置。
整个映射过程有如下公式:
左上角的点 x` = (x / s) + 1;
右下角的点 x` = (x / s) - 1;
其中,S就是CNN中所有卷积步长s的乘积, 论文中使用四次卷积s的计算出来为 2*2*2*2=16
这样就将原图映射到了特征图对应的位置
3. 映射过来的(假如2000个)候选区域的特征,经过SSP层(空间金字塔变换层), S输出固定大小的特征向量。
spatial pyramid pooling (SPP):
作用: 通过SPP层将特征图转换成固定大小的特征向量, 如一个原图输入224*224, 对于conv出来后的输出是13*13*256, 其中某个映射的候选区域假设为12*10*256
spp layer会将每一个候选区域分成1*1, 2*2, 4*4三张大方框子图, 再对大方框子图里的每个小方框区域做max pooling。 一个物体就会有一个特征候选区域,将这个候选区域分成三种,再对这三种子图中,每一个小方框做最大池化,
得出的特征再连接到一起就是(16+4+1)*256 = 21*256 = 5376结果,接着给全连接层做进一步处理
4.将特征向量连接两个全连接层,一个用于分类, 一个用于输出位置。
总结;
1.将图片直接进行卷积运算,得到特征图,
2.将特征图放入SPP layer层操作,每个特征图做一个SPP的池化,相当于21个盒子的池化,得到特征向量
3. 特征向量连接全连接层,经过SVM分类 和 线性回归这两个全连接层。
版权声明:本文为CSDN博主「周周丶周周」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_53345829/article/details/121531231
暂无评论