本视频配套视频链接:https://www.bilibili.com/video/BV1ZL4y1p7Cz/
我们先来介绍一个经典的数据集:VOC 数据集。Visual Object Class 的首字母缩写,它的官方地址为 http://host.robots.ox.ac.uk/pascal/VOC/。
虽然现在大家更倾向于使用我们后面要介绍的 COCO 数据集,但 VOC 数据集也很重要,大家经常可以在一些论文中看到它的身影。
你会发现之前很多的数据集都是伴随着比赛的出现。比赛举办方提供训练数据集图片和训练数据集的标注给参赛者,同时还会提供不带标注信息的测试数据集图片给参赛者。当然,这些测试数据集图片的标注信息是在比赛举办方手中。然后,参赛者拿着带标注信息的训练数据集去捣鼓,然后用捣鼓的模型去预测不带标注信息的测试数据集,将预测出来的标注信息按照比赛方规定的形式提交给比赛方。比赛方之后会比较参赛者提交的预测结果和自己手上的标注结果,进而计算出参赛者提交数据的正确率,最后给各个参赛者的预测结果进行排名。
VOC 数据集也是伴随着比赛出现的,因为这个比赛在 2012 年就停办了,所以数据集更新的年份也就终止于 2012 年。
可以看到上图,存在从 2005 年 - 2012 年的比赛,每年的比赛都提供了相应年份的数据集。这样一看,VOC 数据集其实包括了从 2005 - 2012 年,8 年的数据集。8 份数据集,我们该如何选择哪一个年份的数据集。
先给大家一个结论,我们再来说说为什么选择这些年份的数据集。
结论就是,大家更多使用的是 2007 和 2012 年的数据集。至于原因,让我娓娓道来。
2005 年的时候,VOC 比赛举办方提供了 VOC 2005 数据集,这个时候的数据集只有 4 种目标类别,数据集数量大约只有 1500 张左右。这个时候,VOC 2015 数据集无论是从数据集的图片数量还是目标的种类上来说,都是相对较少的。到了 2006 年,VOC 2006 数据集有了 10 种类别,数量也有了 2600 张左右。
但是,到了 2007 年,VOC 2007 数据集一下子有了 20 种类别,同时数据集数量也一下子提升到了 9900 张左右。
VOC 2007 数据集是一个巨大的转折点。这个时候的数据集无论是从数据量的规模还是目标的类别都能够满足绝大多数模型的训练要求。所以,大家会发现很多模型都采用了 VOC 2007 数据集来训练网络模型。
然而到了 2008 年,VOC 比赛方又开始搞事情了。他们重新制作数据集,所以 VOC 2008 数据集有 20 个类别,图片数量为 4000 张左右。可以发现比 VOC 2007 数据集少得多。之后 2009 - 2012 年都是在 2008 年数据集的基础上不断的进行数量上的扩充,到了 2012 年,数据集的图片数量高达 11000 张。
所以,可想而知,VOC 2012 数据集对广大科研工作者是很有吸引力的。
下面一张图,很好地说明了 VOC 各年份数据集的变化。
上图中,不同的颜色代表数据集的内容,比如 05 年和 06 年的颜色是不一样的,说明 05 年和 06 年数据集的内容是完全不一样的。可以看到 05 - 07 年,是一个阶段,这个时候,每个年份数据集的内容都是不一样的。但是从刚才的介绍中可以发现,07 年数据集,无论是从图片数量还是种类上都是占优的,所以这个 05 - 07 年,VOC 2007 数据集顺利胜出。
而从 08 - 12 年,又是一个新的阶段,08 年,VOC 数据集重新建立了新的数据集,然后每年都在这个数据集的基础上,不断进行扩充。到了 11/12 年,数据集数量还是种类都到了顶峰。大家注意,11 年 和 12 年,数据集图片数量还是类别都是一样的,但是 12 年在 11 年的基础上对标注进行了一些优化改进。大家更习惯喜欢 12 年数据集。
所以,综上,大家应该明白了为什么大家更喜欢使用 2007 和 2012 年的数据集。
土堆教程,配套 目标检测入门实战系列 视频教程
版权声明:本文为CSDN博主「我是小土堆」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/xiaotudui/article/details/122163725
暂无评论