复制-粘贴大法(Copy-Paste):简单而有效的数据增强

论文标题:Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation

论文地址:https://arxiv.org/pdf/2012.07177.pdf

非官方代码:https://github.com/qq995431104/Copy-Paste-for-Semantic-Segmentation


目录

1、摘要

2、简介

 3、本文的方法

混合粘贴

大尺度抖动

4、实验结果

4.1 模型初始化、抖动尺度方面

4.2 和mixup的对比

4.3 在不同backbone和输入尺寸上的对比

4.4  结合自训练和复制粘贴

 4.5 在coco的SOTA模型上的实验

4.6 在 PASCAL VOC目标检测和语义分割上的实验

 4.7 LVIS数据集上的实验

 5 总结


1、摘要

建立有效的实例分割模型,并能处理罕见的对象类别是计算机视觉中一个重要的挑战。数据增强是应对这一挑战的一个有前途的方向。在这里,我们在实例分割方向对复制-粘贴增强进行了系统的研究,如随机地将对象粘贴到一张图像上。先前对复制粘贴的研究依赖于对周围视觉环境的建模来。然而,我们发现随机粘贴对象的简单机制已经足够好了,并且可以在强baseline之上提供稳定的增益。此外,我们通过半监督方法证明复制-粘贴带来的性能是可叠加的,该方法通过伪标签利用额外的数据(如自训练)。在COCO实例分割上,我们实现了49.1 mask AP和57.3 box AP,相比之前的sota模型,有+0.6 mask AP和+1.5 box AP的改进。我们进一步证明了复制-粘贴可以显著改善LVIS benchmark。我们的baseline模型在罕见类别上比LVIS 2020挑战赛优胜条目高出+3.6 mask AP。

2、简介

通过粘贴不同规模的不同对象到新的背景图像,复制-粘贴有潜力免费获取丰富的和新颖的训练数据。这一点和其他数据增强类似,但是本文的复制粘贴主要用于实例分割,其粘贴的对象是从一张图中抠出mask部分对应的实例,然后随机粘贴到另一张图像。所复制粘贴的对象,是精确到像素级的,这也是其与Cut-mix方法的区别。

在coco基准集上测试了复制粘贴大法的有效性,如下图所示,通过对比标准尺度抖动、大尺度抖动、大尺度抖动+复制粘贴,可以看出增加了复制粘贴大法后,可以明显进一步提高性能。

 3、本文的方法

方法很简单,主要思想是:混合粘贴+大尺度抖动。

混合粘贴

是指利用公式I_{1} \times \alpha+I_{2} \times(1-\alpha)将两幅图像的内容混合在一起;公式中,I_1是粘贴对象所在的图像,I_2是主图像,\alpha是mask掩模;公式的意思其实很淳朴,就是将I_1中mask部分的像素抠出来,然后粘贴到I_2中,当然,这个过程有很大的随机性:(1)选择用于粘贴的源图和目标图的随机性;(2)选择粘贴源图中哪些对象的随机性;(3)选择粘贴到目标图像的哪些位置的随机性。

混合粘贴的效果如下图:

大尺度抖动

大尺度抖动(Large Scale Jittering,LSJ)是相较于标准尺度抖动(standard scale jittering,SSJ)而言更为大胆的一种尺度抖动方法。在SSJ中,尺度变化的范围是0.8~1.25,而在LSJ中,尺度变化范围是0.1~2.0;如此大范围的抖动,会产生对比强烈的抖动效果。此外,无论LSJ还是SSJ,都使用了随机水平翻转。LSJ的最终效果如下图:

此外,结合自训练,此方法同样能够带来可叠加的收益 。

4、实验结果

4.1 模型初始化、抖动尺度方面

左:使用了预训练/非预训练模型初始化的backbone在使用/不使用复制粘贴情况的下的对比;右:不同抖动尺度下,用和不用复制粘贴的对比。可以看出,无论什么情况,使用了复制粘贴都能带来稳定的收益。

4.2 和mixup的对比

可以看出,在SSJ的实验(左)中,mixup和Copy-Past都能带来收益,但Copy-Past带来的收益更大;但在LSJ的实验(右)中,mixpu带来的收益就几乎没有了,猜测原因应该是LSJ已经足够优秀了,常规的增强方法并不能带来超出LSJ的收益,而Copy-Past就可以。

4.3 在不同backbone和输入尺寸上的对比

从下表可以看出,使用了复制粘贴大法,在所有模型、输入尺度上都能带来稳定收益。

4.4  结合自训练和复制粘贴

自训练利用未标记数据,可带来1.5 Box AP,复制粘贴同样也能带来类似的收益;将两者结合起来用,可以带来“1+1=2”的线性叠加的收益!(能够使收益线性叠加,是真的强!)

将coco中的对象粘贴到coco和粘贴到伪标签数据的对比,可以看出,无论粘贴到哪里都能带来收益,但两者都粘贴则能带来“1+1>2”的收益:

 4.5 在coco的SOTA模型上的实验

相比SOTA模型,添加了复制粘贴和自训练的方法后,带来的收益同样可观:

4.6 在 PASCAL VOC目标检测和语义分割上的实验

实验表明,复制粘贴大法对目标检测和实例分割同样有效:

 4.7 LVIS数据集上的实验

 5 总结

数据增强是许多视觉系统的核心。本文对复制-粘贴数据增强方法进行了严格的研究,发现该方法是非常有效和健壮的。在强大的baseline基础上,无论是在COCO和LVIS实例分割基准集,复制-粘贴在多个实验设置中都能表现良好,并提供了显著的改善。

复制-粘贴增强策略简单,易于插入到任何实例分割代码库中,并且不会增加训练成本或推理时间。我们还展示了复制-粘贴对于在训练过程中合并额外的未标记图像是有用的,并且能够与自训练技术的带来的收益相加。我们希望它足够令人信服,以使复制-粘贴增强可以作为训练实例分割模型时的标准数据增强手段。

版权声明:本文为CSDN博主「叶舟」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/oYeZhou/article/details/111307717

叶舟

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

Focal Loss for Dense Object Detection

摘要 精度高的two stage 目标检测算法流行于R-CNN,它们分类器运用了一系列稀疏的候选框目标定位;而one stage目标检测则是对可能的目标定位运用了一系列的有规律、密集的采样,更简单也更快&#xff0

Yolact训练自己的数据集

可能是由于yolact官方更新过其项目代码,所以网上其他人的yolact训练使用的config文件和我的稍微有区别。但总体还是差不多的。1:提前准备好自己的数据集 使用labelme来制作分割数据集,