最近学习一下目标检测,遇到的一些问题存在这里以备使用。
不同标识物体的框:
- 边界框,bounding box,用于标识物体的位置,常用格式有左上右下坐标,即xyxy;中心宽高,即xywh。
- 真实框,Ground truth box, 是人工标注的位置,存放在标注文件中
- 预测框,Prediction box, 是由目标检测模型计算输出的框
- 锚框,Anchor box,根据数据集的对象位置类聚出来,用于预测框计算做参考;基于这个参考,算法生成的预测框仅需要在这个锚框的基础上进行“精修或微调fine-tuning”即可,这样算法可以收敛的更快,检测效果更好。
faster-rcnn中的正负样本:
在分类问题中,这个问题相对好理解一点,比如人脸识别中的例子,正样本很好理解,就是人脸的图片,负样本的选取就与问题场景相关,具体而言,如果你要进行教室中学生的人脸识别,那么负样本就是教室的窗子、墙等等,也就是说,不能是与你要研究的问题毫不相关的乱七八糟的场景图片。
在目标检测中,正负样本不是真实标注的,而是网络选取出的anchor,对于每一个Ground_truth bounding_box 从anchor中选取和它重叠度最高的一个anchor作为样本。从剩下的anchor中选取和Ground_truth bounding_box重叠度超过0.7的anchor作为样本,注意正样本的数目不能超过128。随机的从剩下的样本中选取和gt_bbox重叠度小于0.3的anchor作为负样本,正负样本之和为256。
faster-rcnn中的RPN:
生成候选区域,先生成基础anchor(9个框),再生成针对每一个特征的anchor,要对应到原图中,因为生成特征图时进行了池化操作,感受野不同,在所有的anchor中选出最有可能的anchor(正负样本?),最后再进行调整(坐标偏移)。
版权声明:本文为CSDN博主「十二壳」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_45436729/article/details/122324374
暂无评论