目标检测中的数据类别不均衡问题总结

目标检测中的数据类别不均衡问题

1. 问题概述

在目标检测任务中存在各种各样的不均衡问题(参考 目标检测领域中的数据不均衡问题综述),这里仅仅针对数据类别不均衡问题,就是下表的前景类别间不均衡问题,也是我们常说的长尾数据问题。当然这个问题并非是检测任务才有,其他的比如分类任务也是一样存在的,可能有区别的是,对于检测来说,是每个类别的 bbox 数量而不是图片数量。

在这里插入图片描述

2. 解决思路

2.1 从数据着手

从数据上来说,哪一类少就增加哪一类,但是如果要去收集代价可能又太大了,有时候甚至是不可能。

  • 重采样(re-sampling)

    工程上最廉价的方式,直接对较少的类别数据进行重采样,使得数量增加。

  • 数据合成

    简单的比如通过crop & paste 的方式增加少类别样本,甚至是 GAN 等方式。

2.2 从 Loss 着手

  • 重加权(re-weighting)

    比如以类别的数量的倒数作为分类 loss 权重。

  • Focal Loss

2.3 其他方法

上面的方法多是代价比较小的改动就可以带来的提升,但是还有很多其他有效的方法。

  • 迁移学习(transfer learning):这类方法的基本思路是对多类样本和少类样本分别建模,将学到的多类样本的信息/表示/知识迁移给少类别使用。
  • 度量学习(metric learning):本质上是希望能够学到更好的embedding,对少类附近的boundary/margin更好的建模。
  • 元学习/域自适应(meta learning/domain adaptation):分别对头部和尾部的数据进行不同处理,可以去自适应的学习如何重加权,或是formulate成域自适应问题。
  • 解耦特征和分类器(decoupling representation & classifier):最近的研究发现将特征学习和分类器学习解耦,把不平衡学习分为两个阶段,在特征学习阶段正常采样,在分类器学习阶段平衡采样,可以带来更好的长尾学习结果。这也是目前的最优长尾分类算法。参考 Decoupling representation and classifier for long-tailed recognition
  • 半监督学习预训练
    利用无标记数据,半监督学习能够显著提高最后的分类结果。参考数据类别不平衡/长尾分布?不妨利用半监督或自监督学习

参考

版权声明:本文为CSDN博主「kuweicai」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/kuweicai/article/details/122256667

kuweicai

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

小目标检测常用解决方法

小目标检测常用解决方法 1 定义 通用的定义来自 COCO 数据集,定义小于 32x32 pix 的为小目标。 2 小目标检测的难点 可利用特征少现有数据集中小目标占比少小目标聚集问题 首先小目标本身分辨率低&#xff0

制作YOLOv5数据集

1 使用labelImg标注数据集 labelImg是一个可视化的图像标定工具。Faster R-CNN,YOLO,SSD等目标检测网络所需要的数据集,均需要借此工具标定图像中的目标。可以标注两种格式