目标检测一些内容

最近学习一下目标检测,遇到的一些问题存在这里以备使用。

不同标识物体的框:

  • 边界框,bounding box,用于标识物体的位置,常用格式有左上右下坐标,即xyxy;中心宽高,即xywh。
  • 真实框,Ground truth box, 是人工标注的位置,存放在标注文件中
  • 预测框,Prediction box, 是由目标检测模型计算输出的框
  • 锚框,Anchor box,根据数据集的对象位置类聚出来,用于预测框计算做参考;基于这个参考,算法生成的预测框仅需要在这个锚框的基础上进行“精修或微调fine-tuning”即可,这样算法可以收敛的更快,检测效果更好。

faster-rcnn中的正负样本:

在分类问题中,这个问题相对好理解一点,比如人脸识别中的例子,正样本很好理解,就是人脸的图片,负样本的选取就与问题场景相关,具体而言,如果你要进行教室中学生的人脸识别,那么负样本就是教室的窗子、墙等等,也就是说,不能是与你要研究的问题毫不相关的乱七八糟的场景图片。

在目标检测中,正负样本不是真实标注的,而是网络选取出的anchor,对于每一个Ground_truth bounding_box 从anchor中选取和它重叠度最高的一个anchor作为样本。从剩下的anchor中选取和Ground_truth bounding_box重叠度超过0.7的anchor作为样本,注意正样本的数目不能超过128。随机的从剩下的样本中选取和gt_bbox重叠度小于0.3的anchor作为负样本,正负样本之和为256。

faster-rcnn中的RPN:

生成候选区域,先生成基础anchor(9个框),再生成针对每一个特征的anchor,要对应到原图中,因为生成特征图时进行了池化操作,感受野不同,在所有的anchor中选出最有可能的anchor(正负样本?),最后再进行调整(坐标偏移)。

版权声明:本文为CSDN博主「十二壳」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_45436729/article/details/122324374

十二壳

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

FPN 特征金字塔 理解

Feature Pyramid Networks 对于Faster Rcnn使用FPN,cocoAP提升2.3个点,pascalAP提升3.8个点 1*1的conv,调整通道数,原论文中

非极大值抑制 (Non-Maximum Suppression, NMS)

NMS 基本过程 当前的物体检测算法为了保证召回率,对于同一个真实物体往往会有多于 1 个的候选框输出。由于多余的候选框会影响检测精度,因此需要利用 NMS 过滤掉重叠的候选框,得到最佳的预测输出