1. 导入包,配置参数
import time
import os
import paddle
ANCHORS = [10, 13, 16, 30, 33, 23, 30, 61, 62, 45, 59, 119, 116, 90, 156, 198, 373, 326]
ANCHOR_MASKS = [[6, 7, 8], [3, 4, 5], [0, 1, 2]]
IGNORE_THRESH = .7
NUM_CLASSES = 7
def get_lr(base_lr = 0.0001, lr_decay = 0.1):
bd = [10000, 20000]
lr = [base_lr, base_lr * lr_decay, base_lr * lr_decay * lr_decay]
learning_rate = paddle.optimizer.lr.PiecewiseDecay(boundaries=bd, values=lr)
return learning_rate
2. TrainDataset类设置
初始的数据集数据组成:安全帽数据集共有5000张图片和5000个标注文件xml,每个xml文件对应一张图片。xml文件中含有图片路径,图片高宽,标注框位置信息(x1,y1,x2,y2)和类别(['helmet', 'head', 'person'] 共3类)
该类属于自定义类,主要完成如下工作:
- 解析xml文件得到字典列表存储图片和标注信息。通过公式x = (x1 + x2)/2, y = (y1 + y2)/2, w = x2 - x1 +1, h = y2 - y1 + 1将(x,y,x,y)格式转化为(x,y,w,h)格式
- 根据字典列表的字典返回一张图片数据img,及标注 gt_boxes, gt_labels和图片高宽(h, w)。注意这里的真实框(x,y,w,h)使用的是相对值,所以要返回图片的高宽(h,w)用于恢复。
- 数据增强,包括明亮变化、缩放、归一化等。注意缩放后处于统一大小,便于批量读取。经过图像增广后,img的shape被缩放了大小,但(h, w)存储的还是原来的大小。
具体实现:目标检测--数据集处理
TRAINDIR = '/home/aistudio/work/insects/train'
TESTDIR = '/home/aistudio/work/insects/test'
VALIDDIR = '/home/aistudio/work/insects/val'
paddle.set_device("gpu:0")
# 创建数据读取类
train_dataset = TrainDataset(TRAINDIR, mode='train')
valid_dataset = TrainDataset(VALIDDIR, mode='valid')
test_dataset = TrainDataset(VALIDDIR, mode='valid')
使用Dataloader加载数据,返回的格式为:img(batch, channel, w, h), 真实框gt_boxs(batch, num_boxs, location), 类别gt_labels(batch, num_boxs), 高宽w_h(batch, 2) 例如:([2, 3, 400, 400], [2, 10, 4], [2, 10], [2, 2])
# 使用paddle.io.DataLoader创建数据读取器,并设置batchsize,进程数量num_workers等参数
train_loader = paddle.io.DataLoader(train_dataset, batch_size=10, shuffle=True,num_workers=0, drop_last=True, use_shared_memory=False)
valid_loader = paddle.io.DataLoader(valid_dataset, batch_size=10, shuffle=False,num_workers=0, drop_last=False, use_shared_memory=False)
3. 网络
YOLOV3由darknet53做骨干网络,输出3个层级的特征图。
model = YOLOv3(num_classes = NUM_CLASSES) #创建模型
learning_rate = get_lr()
opt = paddle.optimizer.Momentum(
learning_rate=learning_rate,
momentum=0.9,
weight_decay=paddle.regularizer.L2Decay(0.0005),
parameters=model.parameters()) #创建优化器
# opt = paddle.optimizer.Adam(learning_rate=learning_rate, weight_decay=paddle.regularizer.L2Decay(0.0005), parameters=model.parameters())
4. 实现训练函数
重点是get_loss的实现,目标检测的损失,首先要根据真实框计算出预测框,预测框标注了锚框与真实框的中心点和高宽的偏差,物体的类别。模型预测出的是这些偏差值,损失由这些偏差值来建立。
单尺度损失的计算步骤:目标检测YOLOv3的loss计算
虽然这里使用的是多尺度的目标检测,但损失的计算是在单层计算的基础上得到的。
############# 这段代码在本地机器上运行请慎重,容易造成死机#######################
MAX_EPOCH = 200
for epoch in range(MAX_EPOCH):
for i, data in enumerate(train_loader()):
img, gt_boxes, gt_labels, img_scale = data
gt_scores = np.ones(gt_labels.shape).astype('float32')
gt_scores = paddle.to_tensor(gt_scores)
img = paddle.to_tensor(img)
gt_boxes = paddle.to_tensor(gt_boxes)
gt_labels = paddle.to_tensor(gt_labels)
outputs = model(img) #前向传播,输出[P0, P1, P2]
loss = model.get_loss(outputs, gt_boxes, gt_labels, gtscore=gt_scores,
anchors = ANCHORS,
anchor_masks = ANCHOR_MASKS,
ignore_thresh=IGNORE_THRESH,
use_label_smooth=False) # 计算损失函数
loss.backward() # 反向传播计算梯度
opt.step() # 更新参数
opt.clear_grad()
if i % 10 == 0:
timestring = time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(time.time()))
print('{}[TRAIN]epoch {}, iter {}, output loss: {}'.format(timestring, epoch, i, loss.numpy()))
# save params of model
if (epoch % 5 == 0) or (epoch == MAX_EPOCH -1):
paddle.save(model.state_dict(), 'yolo_epoch{}'.format(epoch))
# 每个epoch结束之后在验证集上进行测试
model.eval()
for i, data in enumerate(valid_loader()):
img, gt_boxes, gt_labels, img_scale = data
gt_scores = np.ones(gt_labels.shape).astype('float32')
gt_scores = paddle.to_tensor(gt_scores)
img = paddle.to_tensor(img)
gt_boxes = paddle.to_tensor(gt_boxes)
gt_labels = paddle.to_tensor(gt_labels)
outputs = model(img)
loss = model.get_loss(outputs, gt_boxes, gt_labels, gtscore=gt_scores,
anchors = ANCHORS,
anchor_masks = ANCHOR_MASKS,
ignore_thresh=IGNORE_THRESH,
use_label_smooth=False)
if i % 1 == 0:
timestring = time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(time.time()))
print('{}[VALID]epoch {}, iter {}, output loss: {}'.format(timestring, epoch, i, loss.numpy()))
model.train()
部分截图如下:
5.总结
5.1数据到真实框
这部分主要是数据处理,由标号文件和图片得到图片数据、真实框位置、类别。
重点是图片数据要经过增强处理,而真实框的位置和类别不能直接用于计算损失,要经过与锚框的偏差计算,得到的偏差才是标号,放在后面一步。
在YOLOv3中该步骤会将真实框位置处理为xywh格式的相对值[0~1]。
5.2 YOLOv3模型
各种框架下的该模型的开源实现代码网上都有,重点是要调整各层级的输出形状,要与划分锚框的网格大小要一致,这样模型的输出才能与锚框的位置相对应。
5.3损失的计算
实现由真实框和锚框计算预测框是难点之一。
首先要设定下采样率(图片划分为多少网格),得到的锚框要与真实框做计算得到预测框,预测框的类别由真实框给出,位置由真实框和锚框的偏差公式给出,该公式的实现比较复杂。经由网络预测得到的值与预测框做损失计算。飞桨的API:paddle.vision.ops.yolo_loss实现了上述过程,直接调用即可。
版权声明:本文为CSDN博主「午夜零时」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_55796594/article/details/123091392
暂无评论