目标检测中的数据类别不均衡问题
1. 问题概述
在目标检测任务中存在各种各样的不均衡问题(参考 目标检测领域中的数据不均衡问题综述),这里仅仅针对数据类别不均衡问题,就是下表的前景类别间不均衡问题,也是我们常说的长尾数据问题。当然这个问题并非是检测任务才有,其他的比如分类任务也是一样存在的,可能有区别的是,对于检测来说,是每个类别的 bbox 数量而不是图片数量。
2. 解决思路
2.1 从数据着手
从数据上来说,哪一类少就增加哪一类,但是如果要去收集代价可能又太大了,有时候甚至是不可能。
-
重采样(re-sampling)
工程上最廉价的方式,直接对较少的类别数据进行重采样,使得数量增加。
-
数据合成
简单的比如通过crop & paste 的方式增加少类别样本,甚至是 GAN 等方式。
2.2 从 Loss 着手
-
重加权(re-weighting)
比如以类别的数量的倒数作为分类 loss 权重。
-
Focal Loss
2.3 其他方法
上面的方法多是代价比较小的改动就可以带来的提升,但是还有很多其他有效的方法。
- 迁移学习(transfer learning):这类方法的基本思路是对多类样本和少类样本分别建模,将学到的多类样本的信息/表示/知识迁移给少类别使用。
- 度量学习(metric learning):本质上是希望能够学到更好的embedding,对少类附近的boundary/margin更好的建模。
- 元学习/域自适应(meta learning/domain adaptation):分别对头部和尾部的数据进行不同处理,可以去自适应的学习如何重加权,或是formulate成域自适应问题。
- 解耦特征和分类器(decoupling representation & classifier):最近的研究发现将特征学习和分类器学习解耦,把不平衡学习分为两个阶段,在特征学习阶段正常采样,在分类器学习阶段平衡采样,可以带来更好的长尾学习结果。这也是目前的最优长尾分类算法。参考 Decoupling representation and classifier for long-tailed recognition。
- 半监督学习预训练
利用无标记数据,半监督学习能够显著提高最后的分类结果。参考数据类别不平衡/长尾分布?不妨利用半监督或自监督学习。
参考
版权声明:本文为CSDN博主「kuweicai」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/kuweicai/article/details/122256667
暂无评论