mmdetection - config配置文件之datasets

configs/base/文件目录下有三个文件夹,datasets:为数据集相关配置文件;models:为一些经典模型配置;schedules:主要是对potimizer和lr,以及runner组件的配置;此外,还有一个default_runtime.py文件。
这里我还是以mmdetection官网第一个训练demo为例。也就是训练KittiTiny数据集。

cfg = Config.fromfile('./configs/faster_rcnn/faster_rcnn_r50_caffe_fpn_mstrain_1x_coco.py')

faster_rcnn_r50_caffe_fpn_mstrain_1x_coco.py的继承文件:

_base_ = './faster_rcnn_r50_fpn_1x_coco.py'

faster_rcnn_r50_fpn_1x_coco.py的继承文件:

_base_ = [
    '../_base_/models/faster_rcnn_r50_fpn.py',
    '../_base_/datasets/coco_detection.py',
    '../_base_/schedules/schedule_1x.py', '../_base_/default_runtime.py'
]

我们先只看和datasets相关的代码

# 对输入图片进行标准化处理的配置,减去mean,除以std,不要将读取的bgr转为rgb排列
img_norm_cfg = dict(
    mean=[103.530, 116.280, 123.675], std=[1.0, 1.0, 1.0], to_rgb=False)
#train_pipeline 我把它理解为训练数据处理流程
train_pipeline = [
    dict(type='LoadImageFromFile'),# 首先读取数据
    dict(type='LoadAnnotations', with_bbox=True),# 读取ann标注文件,默认用于检测,带bbox
      # 增强,将图片和标注文件都resize,最大尺寸由img_scale给出,resize保持高宽比
    dict(
        type='Resize',
        img_scale=[(1333, 640), (1333, 672), (1333, 704), (1333, 736),
                   (1333, 768), (1333, 800)],#img_scale (tuple or list[tuple]): 当multiscale_mode为'range'时,tuple元素个数为2
        multiscale_mode='value',# 随机选择size为[(1333, 640), (1333, 672), (1333, 704), (1333, 736),
                   (1333, 768), (1333, 800)]
        keep_ratio=True),
    dict(type='RandomFlip', flip_ratio=0.5),#定义在transforms.py文件中,实现对图片、bbox的随机水平,垂直,对角线翻转
    dict(type='Normalize', **img_norm_cfg),#用之前的img_norm_cfg参数进行图像标准化
    dict(type='Pad', size_divisor=32),#填充图像到固定大小或者是填充到一个能被指定数字整除的尺寸
    dict(type='DefaultFormatBundle'),#定义在formating.py中,这一步就是把img、bboxes、labels转换为tensor,再转换为DataContainer
    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels']),#定义在formating.py中,把一些标注信息插入到results['img_metas']
]
#test_pipeline 测试数据处理流程
test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(
        #在测试集上测试时,必须要用MultiScaleFlipAug!即使不采用多尺度测试,也要用MultiScaleFlipAug。
        #因为aseDetector.forward_test只接受list[]。并且值得注意的是,若采用了多尺度训练,即num_augs大于1,
        #那么batch必须为1;若num_augs等于1时,batch可以大于1。
        type='MultiScaleFlipAug',
        img_scale=(1333, 800),
        flip=False,
        transforms=[
            dict(type='Resize', keep_ratio=True),
            dict(type='RandomFlip'),
            dict(type='Normalize', **img_norm_cfg),
            dict(type='Pad', size_divisor=32),
            dict(type='ImageToTensor', keys=['img']),
            dict(type='Collect', keys=['img']),
        ])
]
#下面是train/val/test用到的不同数据和配置参数
data = dict(
    train=dict(pipeline=train_pipeline),
    val=dict(pipeline=test_pipeline),
    test=dict(pipeline=test_pipeline))

下面是coco_detection.py的代码,faster_rcnn_r50_caffe_fpn_mstrain_1x_coco.py继承了这个文件,并做了更改,大部分参数都相同。

# dataset settings
dataset_type = 'CocoDataset'
data_root = 'data/coco/'
img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='LoadAnnotations', with_bbox=True),
    dict(type='Resize', img_scale=(1333, 800), keep_ratio=True),
    dict(type='RandomFlip', flip_ratio=0.5),
    dict(type='Normalize', **img_norm_cfg),
    dict(type='Pad', size_divisor=32),
    dict(type='DefaultFormatBundle'),
    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels']),
]
test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(
        type='MultiScaleFlipAug',
        img_scale=(1333, 800),
        flip=False,
        transforms=[
            dict(type='Resize', keep_ratio=True),
            dict(type='RandomFlip'),
            dict(type='Normalize', **img_norm_cfg),
            dict(type='Pad', size_divisor=32),
            dict(type='ImageToTensor', keys=['img']),
            dict(type='Collect', keys=['img']),
        ])
]
data = dict(
    samples_per_gpu=1,
    workers_per_gpu=1,
    train=dict(
        type=dataset_type,
        ann_file=data_root + 'annotations/instances_train2017.json',
        img_prefix=data_root + 'train2017/',
        pipeline=train_pipeline),
    val=dict(
        type=dataset_type,
        ann_file=data_root + 'annotations/instances_val2017.json',
        img_prefix=data_root + 'val2017/',
        pipeline=test_pipeline),
    test=dict(
        type=dataset_type,
        ann_file=data_root + 'annotations/instances_val2017.json',
        img_prefix=data_root + 'val2017/',
        pipeline=test_pipeline))
evaluation = dict(interval=1, metric='bbox')

训练数据处理流程:1、导入图片以及标注信息,2、实现对图片、bbox的随机resize,3、实现对图片、bbox的随机水平,垂直,对角线翻转,4、会对图片进行归一化处理,5、填充图像到固定大小或者是填充到一个能被指定数字整除的尺寸6、把img、bboxes、labels转换为tensor,再转换为DataContainer,7、 对DefaultFormatBundle的结果进一步封装,把meta_keys指定的键值对经DataContainer包装后,插入到results[‘img_metas’]。

除了这些数据增强,mmdetection还实现了RandomCrop、CutOut、Mosaic等数据增强策略。

版权声明:本文为CSDN博主「mm_exploration」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/m0_37737957/article/details/122900765

mm_exploration

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

Day 14 - 安装与执行 YOLO

Day 14 - 安装与执行 YOLO 在 介绍影像辨识的处理流程 - Day 10 有提到 YOLO 模型是由 Joseph Redmon 所提出,而到了 YOLOV4 后才换成另外一群人继续发展,

目标检测自动标注生成xml文件

前言 在训练目标检测时,标注数据是一项简单而又浪费时间的事情,如果能够自动标注数据将可以高效的扩充数据集,从而提高训练模型的效果。 目前能想到的一种自动标注方法是先训练一个检测效果较好的模型&#xff

Yolo v5 训练自己的数据集

Yolo v5 训练自己的数据集 前言 感谢各位大佬尤其是,博主:深度学习菜鸟,参考原文链接https://blog.csdn.net/qq_36756866/article/details/109

目标检测入门之矩形框IOU计算

1. 引言 在目标检测领域中,我们经常用IOU来衡量检测框和标注真实框之间的重叠程度,那么究竟该如何计算IOU呢? 闲话少说,我们直接进入今天的主题… 2. 什么是IOU? IOU(交并比 Intersection over