目标检测(SPPNet)

1. 将整个图片输入到一个基础卷积网络,得到feature map

2.原图中通过选择性搜索(SS)得到候选区域直接映射到feature map中对应位置。

整个映射过程有如下公式:

左上角的点 x` = (x / s) + 1;  

右下角的点 x` = (x / s) - 1;

其中,S就是CNN中所有卷积步长s的乘积, 论文中使用四次卷积s的计算出来为 2*2*2*2=16

这样就将原图映射到了特征图对应的位置

3. 映射过来的(假如2000个)候选区域的特征,经过SSP层(空间金字塔变换层), S输出固定大小的特征向量。

spatial pyramid pooling (SPP):

作用: 通过SPP层将特征图转换成固定大小的特征向量,  如一个原图输入224*224, 对于conv出来后的输出是13*13*256,  其中某个映射的候选区域假设为12*10*256

spp layer会将每一个候选区域分成1*1, 2*2, 4*4三张大方框子图, 再对大方框子图里的每个小方框区域做max pooling。  一个物体就会有一个特征候选区域,将这个候选区域分成三种,再对这三种子图中,每一个小方框做最大池化,

得出的特征再连接到一起就是(16+4+1)*256 = 21*256 = 5376结果,接着给全连接层做进一步处理

4.将特征向量连接两个全连接层,一个用于分类, 一个用于输出位置。

 总结;

1.将图片直接进行卷积运算,得到特征图,

2.将特征图放入SPP layer层操作,每个特征图做一个SPP的池化,相当于21个盒子的池化,得到特征向量

3. 特征向量连接全连接层,经过SVM分类 和 线性回归这两个全连接层。

版权声明:本文为CSDN博主「周周丶周周」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_53345829/article/details/121531231

周周丶周周

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

FPN (特征金字塔) 的原理和代码

1. 为什么会使用金字塔式的representation以及它存在的问题。 论文中提到一些传统的使用深度学习来做物体检测的结构会倾向于避开使用金字塔性质的representation, 因为使用这样的representation会对算力和内存