提出 Body Region Guided Spindle Net，有两个阶段：
1. FEN：特征抽取网络
2. FFN：特征融合网络
构建了自有数据集：SenseReID，与其他数据集区别在于该数据集是由12个真实场景的监控所捕获并且它不包含训练数据，仅用于测试。根据camera index将某个人的图像分为probe set和gallery set。probe set包含522个ID，gallery set包含1717个ID其中包括仅由一台camera捕获的1195个附加ID

三、网络结构

步骤一：预定义

得到14个姿态点：借鉴CPM（一种姿态点估计模型），使用序列框架（sequential framework）以从粗到细的方式生成相应图，对身体关节位置产生越来越精细的估计，由于CPM计算成本高，论文进行了三处修改，降低了模型复杂性。
- 共享前几层的卷积参数，以提取图像特征
- 将池化层替换为步长为2的卷积层，以减小特征图大小
- 为了快速计算，输入图像的大小，框架阶段数和卷积层的通道数量都减少了。
产生7个身体区域（Body Region Proposal Network）
- 基于RPN根据14个姿态点生产7个part，三个宏观区域（头、上身、下身）和四个微观区域（左手、右手、左腿、右腿）
- RPN最早出现于Faster RCNN（S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In NIPS, 2015. 2）

FEN网络提取特征
- 1个全局特征和7个局部特征均通过池化后得到256维的特征向量。FEN包含了3个卷积模块和2个ROI池化模块。
  - FEN-C1：分别对原图经过CNN网络，其中一个是经过RPN得到7个part
  - FEN-P1：通过ROI pooling 得到三个宏观区域（头、上身、下身）经过FEN-C2 CNN网络得到其特征，
  - FEN-P2：通过ROI pooling 得到四个微观区域（左手、右手、左腿、右腿）的特征
  - 综上，图像越大的区域，经过CNN越多
FFN网络层次性地融合特征
- FFN-1：先融合小特征，即左右腿特征和左右手特征
- FFN-2：再融合大特征，即利用腿部特征和下半身得到下半身特征，手部特征和上半身得到上半身特征
- FFN-3：最后融合身体特征，即将头部、上身、下身进行融合
- FFN-4：将身体特征和一开始的全局特征，融合为最终特征

版权声明：本文为CSDN博主「浅然言而信」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/w_linux/article/details/121981226