目标检测中的数据类别不均衡问题

1. 问题概述

在目标检测任务中存在各种各样的不均衡问题（参考目标检测领域中的数据不均衡问题综述），这里仅仅针对数据类别不均衡问题，就是下表的前景类别间不均衡问题，也是我们常说的长尾数据问题。当然这个问题并非是检测任务才有，其他的比如分类任务也是一样存在的，可能有区别的是，对于检测来说，是每个类别的 bbox 数量而不是图片数量。

在这里插入图片描述

2. 解决思路

2.1 从数据着手

从数据上来说，哪一类少就增加哪一类，但是如果要去收集代价可能又太大了，有时候甚至是不可能。

重采样（re-sampling）

工程上最廉价的方式，直接对较少的类别数据进行重采样，使得数量增加。
数据合成

简单的比如通过crop & paste 的方式增加少类别样本，甚至是 GAN 等方式。

2.2 从 Loss 着手

重加权（re-weighting）

比如以类别的数量的倒数作为分类 loss 权重。
Focal Loss

2.3 其他方法

上面的方法多是代价比较小的改动就可以带来的提升，但是还有很多其他有效的方法。

迁移学习（transfer learning）：这类方法的基本思路是对多类样本和少类样本分别建模，将学到的多类样本的信息/表示/知识迁移给少类别使用。
度量学习（metric learning）：本质上是希望能够学到更好的embedding，对少类附近的boundary/margin更好的建模。
元学习/域自适应（meta learning/domain adaptation）：分别对头部和尾部的数据进行不同处理，可以去自适应的学习如何重加权，或是formulate成域自适应问题。
解耦特征和分类器（decoupling representation & classifier）：最近的研究发现将特征学习和分类器学习解耦，把不平衡学习分为两个阶段，在特征学习阶段正常采样，在分类器学习阶段平衡采样，可以带来更好的长尾学习结果。这也是目前的最优长尾分类算法。参考 Decoupling representation and classifier for long-tailed recognition。
半监督学习预训练
利用无标记数据，半监督学习能够显著提高最后的分类结果。参考数据类别不平衡/长尾分布？不妨利用半监督或自监督学习。

参考

数据类别不平衡/长尾分布？不妨利用半监督或自监督学习

版权声明：本文为CSDN博主「kuweicai」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/kuweicai/article/details/122256667

目标检测中的数据类别不均衡问题总结

目标检测中的数据类别不均衡问题

1. 问题概述