目标检测一些内容

最近学习一下目标检测，遇到的一些问题存在这里以备使用。

不同标识物体的框：

边界框，bounding box，用于标识物体的位置，常用格式有左上右下坐标，即xyxy；中心宽高，即xywh。
真实框，Ground truth box, 是人工标注的位置，存放在标注文件中
预测框，Prediction box，是由目标检测模型计算输出的框
锚框，Anchor box，根据数据集的对象位置类聚出来，用于预测框计算做参考；基于这个参考，算法生成的预测框仅需要在这个锚框的基础上进行“精修或微调fine-tuning”即可，这样算法可以收敛的更快，检测效果更好。

faster-rcnn中的正负样本：

在分类问题中，这个问题相对好理解一点，比如人脸识别中的例子，正样本很好理解，就是人脸的图片，负样本的选取就与问题场景相关，具体而言，如果你要进行教室中学生的人脸识别，那么负样本就是教室的窗子、墙等等，也就是说，不能是与你要研究的问题毫不相关的乱七八糟的场景图片。

在目标检测中，正负样本不是真实标注的，而是网络选取出的anchor，对于每一个Ground_truth bounding_box 从anchor中选取和它重叠度最高的一个anchor作为样本。从剩下的anchor中选取和Ground_truth bounding_box重叠度超过0.7的anchor作为样本，注意正样本的数目不能超过128。随机的从剩下的样本中选取和gt_bbox重叠度小于0.3的anchor作为负样本，正负样本之和为256。

faster-rcnn中的RPN：

生成候选区域，先生成基础anchor（9个框），再生成针对每一个特征的anchor，要对应到原图中，因为生成特征图时进行了池化操作，感受野不同，在所有的anchor中选出最有可能的anchor（正负样本？），最后再进行调整（坐标偏移）。

版权声明：本文为CSDN博主「十二壳」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_45436729/article/details/122324374