YOLOv5 实现目标检测（训练自己的数据集实现猫猫识别）

文章目录[隐藏]

目前YOLOv5已经更新到v6.0版本了，本文适用于v3.0-v6.0间所有版本的各种配置，以及更新了YOLOv5的使用说明。需要注意的是v2.0之后版本的YOLOv5权重通用，但不兼容v1.0，因此不建议使用v1.0。
v6.0版本需要的Python版本>=3.7.0，PyTorch>= 1.7。v6.0版本新增yolov5 nano模型，其他模型结构也有修改，模型转换/导出友好，精度基本不变，速度相对于v5.0略有提升。
一、概要
二、环境配置
三、YOLOv5 实现训练
四、YOLOv5 实现检测

目前YOLOv5已经更新到v6.0版本了，本文适用于v3.0-v6.0间所有版本的各种配置，以及更新了YOLOv5的使用说明。需要注意的是v2.0之后版本的YOLOv5权重通用，但不兼容v1.0，因此不建议使用v1.0。

v6.0版本需要的Python版本>=3.7.0，PyTorch>= 1.7。v6.0版本新增yolov5 nano模型，其他模型结构也有修改，模型转换/导出友好，精度基本不变，速度相对于v5.0略有提升。

———————————————————————————————————

一、概要

2020年6月10日，Ultralytics在github上正式发布了YOLOv5。YOLO系列可以说是单机目标检测框架中的潮流前线了，YOLOv5并不是一个单独的模型，而是一个模型家族，包括了YOLOv5s(最小)、YOLOv5m、YOLOv5l、YOLOv5x(最大)。目前v6.0版本又新增一层YOLOv5n模型，代替YOLOv5s成为最小模型，在所有模型中速度更快但精度也更低。
在这里插入图片描述
由于YOLOv5是在PyTorch中实现的，它受益于成熟的PyTorch生态系统，支持更简单，部署更容易，相对于YOLOv4，YOLOv5具有以下优点：

速度更快。在YOLOv5 Colab notebook上，运行Tesla
P100，我们看到每张图像的推理时间仅需0.007秒，这意味着每秒140帧（FPS），速度是YOLOv4的2倍还多。
精度更高。在Roboflow对血细胞计数和检测（BCCD）数据集的测试中，只训练了100个epochs就达到了大约0.895的平均精度（mAP）。诚然EfficientDet和YOLOv4的性能相当，但在准确率没有任何损失的情况下，看到如此全面的性能提升是非常罕见的。
体积更小。YOLOv5的权重文件是27兆字节。YOLOv4（采用Darknet架构）的权重文件是244兆。YOLOv5比YOLOv4小了近90%！这意味着YOLOv5可以更容易地部署到嵌入式设备上。

既然YOLOv5如此之棒，那我们就体验以下大神们的开源成果吧！

github地址：https://github.com/ultralytics/yolov5 [不到1M]

大神们还很贴心的把官方模型放到了网上，如果有梯子，可以下载下来直接测试一下，YOLOv5所有版本的源码和官方模型的下载地址：https://github.com/ultralytics/yolov5/tags。博主这边没梯子，不过也无关紧要啦，毕竟我们用YOLOv5是识别具体的某项东西，需要自己用数据集来训练模型，官方给的模型也不一定适合我们的业务场景。

至于YOLOv5的原理这里就不多讲了（其实是讲不清），感兴趣的可以自行搜索。话不多说，直接上干货！
在这里插入图片描述

二、环境配置

2.1 基本配置

首先将YOLOv5项目下载到本地，然后配置虚拟环境conda create -n yolov5 python==3.8（尽量一切操作都在虚拟环境中），在YOLOv5中尽量使用python3.7或python3.8。项目的测试平台为：

操作系统：windows10
IDE：Pycharm
python版本：anaconda Pyhon3.8
pytorch版本：torch 1.10.0
cuda版本：11.3
显卡：RTX 3060

cuda和pytorch的安装这里不再阐述，国内的话建议下载下来torch和torchvision的whl再进行安装，防止网速不稳定出现安装错误。本文所用到的cuda和cudnn的具体版本如下所示。
在这里插入图片描述
如果安装的是GPU版本的pytorch，则不需要另外安装cuda，更不需要额外配置cudnn。pytorch的GPU版本自带cuda包，不需要和电脑环境变量里的cuda一致，只需要驱动能够兼容pytorch GPU版本的cuda包。需要特别注意的是，30系显卡不支持cuda10.0。
这里为了方便起见，我安装的是GPU版本的pytorch，pytorch所自带的cuda为11.3。
在这里插入图片描述

接着进入虚拟环境，使用pip安装必要模块（建议换成国内的源后进行安装）：

# Base ----------------------------------------
pip install matplotlib
pip install numpy
pip install opencv-python
pip install pillow
pip install pyyaml
pip install requests
pip install scipy
pip install tqdm

# Logging -------------------------------------
pip install tensorboard

# Plotting --------------------------------------
pip install pandas
pip install seaborn

# Export --------------------------------------

# Extras ---------------------------------------
pip install thop
pip install Cython
pip install pycocotools

2.2 pycocotools安装

本项目需要pycocotools模块，COCO是一个大型的图像数据集，用于目标检测、分割、人的关键点检测、素材分割和标题生成，在python中用COCO数据集需要安装pycocotools。但是在windows环境下无法直接通过pip安装pycocotools，安装方法如下：
先安装Visual C++ 2015 build tools：Microsoft Visual C++ Build Tools 2015，安装好后，在Terminal中执行下面命令：

pip install git+https://github.com/philferriere/cocoapi.git#subdirectory=PythonAPI

执行后即可安装完毕。

2.3 apex安装(v3.1之后的版本不再需要安装apex)

apex是一款基于 PyTorch 的混合精度训练加速神器，单纯的inference实际上不需要apex模块，如果还要训练自己的数据集，就需要安装这个模块，安装方法如下：
在github上把apex项目下载或者git到本地，链接为：https://github.com/NVIDIA/apex。
在terminal中激活pytorch的环境，并且进入到apex的文件夹下，在terminal中执行:

python setup.py install

~~执行之后即安装完毕。~~~~
~~具体安装教程可以参考该博文：https://blog.csdn.net/mrjkzhangma/article/details/100704397~~

执行后可以执行pip list命令查看当前环境下的所有模块，如果看到环境中有刚才安装的的模块，则环境已经配置完毕！

三、YOLOv5 实现训练

3.1 准备工作

首先从github上下载下来YOLOv5，楼主这里改名为yolov5-6.0-cat，因为是识别小猫猫的。然后在data目录下新建Annotations, images, ImageSets, labels 四个文件夹。
其中images存放的是原始的图片数据集，Annotations存放的是标记后生成的xml文件，labels存放的是保存标记内容的txt文件，ImageSets存放的是训练数据集和测试数据集的分类情况。

├── data
│   ├── Annotations  进行 detection 任务时的标签文件，xml 形式，文件名与图片名一一对应
│   ├── images  存放 .jpg 格式的图片文件
│   ├── ImageSets  存放的是分类和检测的数据集分割文件，包含train.txt, val.txt,trainval.txt,test.txt
│   ├── labels  存放label标注信息的txt文件，与图片一一对应


├── ImageSets(train，val，test建议按照8：1：1比例划分)
│   ├── train.txt  写着用于训练的图片名称
│   ├── val.txt  写着用于验证的图片名称
│   ├── trainval.txt  train与val的合集
│   ├── test.txt  写着用于测试的图片名称

在这里插入图片描述

3.2 标记数据集

工欲善其事必先利其器，没有合适的训练数据集去训练模型，哪怕YOLOv5这个目标识别框架再优秀那也只是个花架子啊。所以第一步我们要去准备我们的训练数据集，楼主这里要识别的是家里的两只活泼可爱黏人乖巧听话的小猫猫，所以准备了五六十张猫猫的照片。制作数据集时，通常使用labelImg标注工具，具体用法这里不多做阐述，大家可以自行搜索，labelImg的GitHub为：https://github.com/tzutalin/labelImg。
这里楼主用了另一种感觉也好用的标记工具：精灵标记助手。使用起来那是相当的顺手啊，不仅操作简单上手快，还可以保存之前标注的数据集，方便后续对数据集标注内容的修改，还支持文本标注，视频标注，而且还免费，真的算是业界良心了。

下载地址：http://www.jinglingbiaozhu.com/

参考博文：https://blog.csdn.net/youmumzcs/article/details/79657132

精灵标记助手标记界面如图所示：
在这里插入图片描述
数据集标记好后，将原始图片数据集放到images文件夹中，如图所示。

将精灵标记助手所生成的xml文件全部放入到Annotations文件夹中，如图所示。

3.3 构建数据集

在yolov5-6.0-cat的根目录下新建一个文件makeTxt.py，代码如下：

import os
import random


trainval_percent = 0.9
train_percent = 0.9
xmlfilepath = 'data/Annotations'
txtsavepath = 'data/ImageSets'
total_xml = os.listdir(xmlfilepath)

num = len(total_xml)
list = range(num)
tv = int(num * trainval_percent)
tr = int(tv * train_percent)
trainval = random.sample(list, tv)
train = random.sample(trainval, tr)

ftrainval = open('data/ImageSets/trainval.txt', 'w')
ftest = open('data/ImageSets/test.txt', 'w')
ftrain = open('data/ImageSets/train.txt', 'w')
fval = open('data/ImageSets/val.txt', 'w')

for i in list:
    name = total_xml[i][:-4] + '\n'
    if i in trainval:
        ftrainval.write(name)
        if i in train:
            ftrain.write(name)
        else:
            fval.write(name)
    else:
        ftest.write(name)

ftrainval.close()
ftrain.close()
fval.close()
ftest.close()

接着再新建另一个文件voc_label.py，切记，classes=[……] 中填入的一定要是自己在数据集中所标注的类别名称，标记了几个类别就填写几个类别名，填写错误的话会造成读取不出xml文件里的标注信息。代码如下：

# -*- coding: utf-8 -*-
# xml解析包
import xml.etree.ElementTree as ET
import pickle
import os
from os import listdir, getcwd
from os.path import join


sets = ['train', 'test', 'val']
classes = ['Gingerbread', 'Coconut-milk']


# 进行归一化操作
def convert(size, box): # size:(原图w,原图h) , box:(xmin,xmax,ymin,ymax)
    dw = 1./size[0]     # 1/w
    dh = 1./size[1]     # 1/h
    x = (box[0] + box[1])/2.0   # 物体在图中的中心点x坐标
    y = (box[2] + box[3])/2.0   # 物体在图中的中心点y坐标
    w = box[1] - box[0]         # 物体实际像素宽度
    h = box[3] - box[2]         # 物体实际像素高度
    x = x*dw    # 物体中心点x的坐标比(相当于 x/原图w)
    w = w*dw    # 物体宽度的宽度比(相当于 w/原图w)
    y = y*dh    # 物体中心点y的坐标比(相当于 y/原图h)
    h = h*dh    # 物体宽度的宽度比(相当于 h/原图h)
    return (x, y, w, h)    # 返回 相对于原图的物体中心点的x坐标比,y坐标比,宽度比,高度比,取值范围[0-1]


# year ='2012', 对应图片的id（文件名）
def convert_annotation(image_id):
    '''
    将对应文件名的xml文件转化为label文件，xml文件包含了对应的bunding框以及图片长款大小等信息，
    通过对其解析，然后进行归一化最终读到label文件中去，也就是说
    一张图片文件对应一个xml文件，然后通过解析和归一化，能够将对应的信息保存到唯一一个label文件中去
    labal文件中的格式：calss x y w h　　同时，一张图片对应的类别有多个，所以对应的ｂｕｎｄｉｎｇ的信息也有多个
    '''
    # 对应的通过year 找到相应的文件夹，并且打开相应image_id的xml文件，其对应bund文件
    in_file = open('data/Annotations/%s.xml' % (image_id), encoding='utf-8')
    # 准备在对应的image_id 中写入对应的label，分别为
    # <object-class> <x> <y> <width> <height>
    out_file = open('data/labels/%s.txt' % (image_id), 'w', encoding='utf-8')
    # 解析xml文件
    tree = ET.parse(in_file)
    # 获得对应的键值对
    root = tree.getroot()
    # 获得图片的尺寸大小
    size = root.find('size')
    # 如果xml内的标记为空，增加判断条件
    if size != None:
        # 获得宽
        w = int(size.find('width').text)
        # 获得高
        h = int(size.find('height').text)
        # 遍历目标obj
        for obj in root.iter('object'):
            # 获得difficult ？？
            difficult = obj.find('difficult').text
            # 获得类别 =string 类型
            cls = obj.find('name').text
            # 如果类别不是对应在我们预定好的class文件中，或difficult==1则跳过
            if cls not in classes or int(difficult) == 1:
                continue
            # 通过类别名称找到id
            cls_id = classes.index(cls)
            # 找到bndbox 对象
            xmlbox = obj.find('bndbox')
            # 获取对应的bndbox的数组 = ['xmin','xmax','ymin','ymax']
            b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text),
                 float(xmlbox.find('ymax').text))
            print(image_id, cls, b)
            # 带入进行归一化操作
            # w = 宽, h = 高， b= bndbox的数组 = ['xmin','xmax','ymin','ymax']
            bb = convert((w, h), b)
            # bb 对应的是归一化后的(x,y,w,h)
            # 生成 calss x y w h 在label文件中
            out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')


# 返回当前工作目录
wd = getcwd()
print(wd)


for image_set in sets:
    '''
    对所有的文件数据集进行遍历
    做了两个工作：
　　　　１．将所有图片文件都遍历一遍，并且将其所有的全路径都写在对应的txt文件中去，方便定位
　　　　２．同时对所有的图片文件进行解析和转化，将其对应的bundingbox 以及类别的信息全部解析写到label 文件中去
    　　　　　最后再通过直接读取文件，就能找到对应的label 信息
    '''
    # 先找labels文件夹如果不存在则创建
    if not os.path.exists('data/labels/'):
        os.makedirs('data/labels/')
    # 读取在ImageSets/Main 中的train、test..等文件的内容
    # 包含对应的文件名称
    image_ids = open('data/ImageSets/%s.txt' % (image_set)).read().strip().split()
    # 打开对应的2012_train.txt 文件对其进行写入准备
    list_file = open('data/%s.txt' % (image_set), 'w')
    # 将对应的文件_id以及全路径写进去并换行
    for image_id in image_ids:
        list_file.write('data/images/%s.jpg\n' % (image_id))
        # 调用  year = 年份  image_id = 对应的文件名_id
        convert_annotation(image_id)
    # 关闭文件
    list_file.close()

# os.system(‘comand’) 会执行括号中的命令，如果命令成功执行，这条语句返回0，否则返回1
# os.system("cat 2007_train.txt 2007_val.txt 2012_train.txt 2012_val.txt > train.txt")
# os.system("cat 2007_train.txt 2007_val.txt 2007_test.txt 2012_train.txt 2012_val.txt > train.all.txt")

分别运行makeTxt.py和voc_label.py。

makeTxt.py主要是将数据集分类成训练数据集和测试数据集，默认train，val，test按照8：1：1的比例进行随机分类，运行后ImagesSets文件夹中会出现四个文件，主要是生成的训练数据集和测试数据集的图片名称，如下图。同时data目录下也会出现这四个文件，内容是训练数据集和测试数据集的图片路径。
在这里插入图片描述

voc_label.py主要是将图片数据集标注后的xml文件中的标注信息读取出来并写入txt文件，运行后在labels文件夹中出现所有图片数据集的标注信息，如下图：
在这里插入图片描述

到此，本次训练所需的数据集已经全部准备好了。

3.4 文件修改

3.4.1 数据集方面的yaml文件修改

首先在data目录下，新建一份yaml文件，命名为cat.yaml，并仿照data文件夹下原有的coco.yaml的内容格式对cat.yaml进行配置。其中path，train，val，test分别为数据集的路径， nc为数据集的类别数，我这里只分了两类，names为类别的名称。这几个参数均按照自己的实际需求来修改。cat.yaml的代码如下：

# Train command: python train.py --data data/cat.yaml
# Dataset should be placed next to yolov5 folder:
# parent
# ├── yolov5
#     └── data


# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: data  # dataset root dir
train: train.txt  # train images (relative to 'path')
val: val.txt  # val images (relative to 'path')
test: test.txt  # test images (optional)

# number of classes
nc: 2

# class names
names: ['Coconut-milk', 'Gingerbread']

3.4.2 网络参数方面的yaml文件修改

接着在models目录下的yolov5l.yaml文件进行修改，这里取决于你使用了哪个模型就去修改对于的文件，该项目中使用的是yolov5l模型（选用何种模型需根据项目的具体需求和GPU资源配置来定，大模型肯定更精确但是检测速度也更慢更占显存，小模型精度欠佳但是速度具有优势也更省显存）。需要修改的代码如下：

# Parameters
nc: 2  # number of classes
depth_multiple: 1.0  # model depth multiple
width_multiple: 1.0  # layer channel multiple

3.4.3 train.py中的一些参数修改

最后，在根目录中对train.py中的一些参数进行修改，主要参数解释如下。我们平时训练的话，主要用到的只有这几个参数而已：–weights，–cfg，–data，–epochs，–batch-size，–img-size，–project。

parser = argparse.ArgumentParser()
# 加载预训练的模型权重文件，如果文件夹下没有该文件，则在训练前会自动下载
parser.add_argument('--weights', type=str, default=ROOT / 'yolov5l.pt', help='initial weights path')
# 模型配置文件，网络结构，使用修改好的yolov5l.yaml文件
parser.add_argument('--cfg', type=str, default='models/yolov5l.yaml', help='model.yaml path')
# 数据集配置文件，数据集路径，类名等，使用配置好的cat.yaml文件
parser.add_argument('--data', type=str, default=ROOT / 'data/cat.yaml', help='dataset.yaml path')
# 超参数文件
parser.add_argument('--hyp', type=str, default=ROOT / 'data/hyps/hyp.scratch.yaml', help='hyperparameters path')
# 训练总轮次，1个epoch等于使用训练集中的全部样本训练一次，值越大模型越精确，训练时间也越长，默认为300
parser.add_argument('--epochs', type=int, default=300)
# 批次大小，一次训练所选取的样本数，显卡不太行的话，就调小点，反正3060是带不动batch-size=16的，传-1的话就是autobatch
parser.add_argument('--batch-size', type=int, default=16, help='total batch size for all GPUs')
# 输入图片分辨率大小，默认为640
parser.add_argument('--imgsz', '--img', '--img-size', type=int, default=640, help='train, val image size (pixels)')
# 是否采用矩形训练，默认False，开启后可显著的减少推理时间
parser.add_argument('--rect', action='store_true', help='rectangular training')
# 继续训练，默认从打断后的最后一次训练继续，需开启default=True
parser.add_argument('--resume', nargs='?', const=True, default=False, help='resume most recent training')
# 仅保存最终一次epoch所产生的模型
parser.add_argument('--nosave', action='store_true', help='only save final checkpoint')
# 仅在最终一次epoch后进行测试
parser.add_argument('--noval', action='store_true', help='only validate final epoch')
# 禁用自动锚点检查
parser.add_argument('--noautoanchor', action='store_true', help='disable autoanchor check')
# 超参数演变
parser.add_argument('--evolve', type=int, nargs='?', const=300, help='evolve hyperparameters for x generations')
# 谷歌云盘bucket，一般不会用到
parser.add_argument('--bucket', type=str, default='', help='gsutil bucket')
# 是否提前缓存图片到内存，以加快训练速度，默认False
parser.add_argument('--cache', type=str, nargs='?', const='ram', help='--cache images in "ram" (default) or "disk"')
# 选用加权图像进行训练
parser.add_argument('--image-weights', action='store_true', help='use weighted image selection for training')
# 训练的设备，cpu；0(表示一个gpu设备cuda:0)；0,1,2,3(多个gpu设备)。值为空时，训练时默认使用计算机自带的显卡或CPU
parser.add_argument('--device', default='', help='cuda device, i.e. 0 or 0,1,2,3 or cpu')
# 是否进行多尺度训练，默认False
parser.add_argument('--multi-scale', action='store_true', help='vary img-size +/- 50%%')
# 数据集是否只有一个类别，默认False
parser.add_argument('--single-cls', action='store_true', help='train multi-class data as single-class')
# 是否使用adam优化器，默认False
parser.add_argument('--adam', action='store_true', help='use torch.optim.Adam() optimizer')
# 是否使用跨卡同步BN，在DDP模式使用
parser.add_argument('--sync-bn', action='store_true', help='use SyncBatchNorm, only available in DDP mode')
# dataloader的最大worker数量，大于0时使用子进程读取数据，训练程序有可能会卡住
parser.add_argument('--workers', type=int, default=8, help='maximum number of dataloader workers')
# 训练结果所存放的路径，默认为runs/train
parser.add_argument('--project', default=ROOT / 'runs/train', help='save to project/name')
# 训练结果所在文件夹的名称，默认为exp
parser.add_argument('--name', default='exp', help='save to project/name')
# 如训练结果存放路径重名，不覆盖已存在的文件夹
parser.add_argument('--exist-ok', action='store_true', help='existing project/name ok, do not increment')
# 使用四合一dataloader
parser.add_argument('--quad', action='store_true', help='quad dataloader')
# 线性学习率
parser.add_argument('--linear-lr', action='store_true', help='linear LR')
# 标签平滑处理，默认0.0
parser.add_argument('--label-smoothing', type=float, default=0.0, help='Label smoothing epsilon')
# 已训练多少次epoch后结果仍没有提升就终止训练，默认100
parser.add_argument('--patience', type=int, default=100, help='EarlyStopping patience (epochs without improvement)')
# 冻结模型层数，默认0不冻结，冻结主干网就传10，冻结所有就传24
parser.add_argument('--freeze', type=int, default=0, help='Number of layers to freeze. backbone=10, all=24')
# 设置多少次epoch保存一次模型
parser.add_argument('--save-period', type=int, default=-1, help='Save checkpoint every x epochs (disabled if < 1)')
# 分布式训练参数，请勿修改
parser.add_argument('--local_rank', type=int, default=-1, help='DDP parameter, do not modify')

# Weights & Biases arguments(一般上用不着)
parser.add_argument('--entity', default=None, help='W&B: Entity')
parser.add_argument('--upload_dataset', action='store_true', help='W&B: Upload dataset as artifact table')
parser.add_argument('--bbox_interval', type=int, default=-1, help='W&B: Set bounding-box image logging interval')
parser.add_argument('--artifact_alias', type=str, default='latest', help='W&B: Version of dataset artifact to use')

opt = parser.parse_known_args()[0] if known else parser.parse_args()

3.5 训练模型

全部配置好后，直接执行train.py文件开始训练，这时候就到了考验显卡的时候，可以耐心的等上一两个小时，千万别手痒玩什么3A大作，否则电脑爆炸还得重新训练。
当程序运行界面出现如下所示并后续不报错的情况下，说明开始训练。

train: weights=yolov5l.pt, cfg=models/yolov5l.yaml, data=data\cat.yaml, hyp=data\hyps\hyp.scratch.yaml, epochs=300, batch_size=3, imgsz=640, rect=False, resume=False, nosave=False, noval=False, noautoanchor=False, evolve=None, bucket=, cache=None, image_weights=False, device=, multi_scale=False, single_cls=False, adam=False, sync_bn=False, workers=8, project=runs\train, name=exp, exist_ok=False, quad=False, linear_lr=False, label_smoothing=0.0, patience=100, freeze=0, save_period=-1, local_rank=-1, entity=None, upload_dataset=False, bbox_interval=-1, artifact_alias=latest
github: skipping check (not a git repository), for updates see https://github.com/ultralytics/yolov5
YOLOv5  2021-10-12 torch 1.10.0+cu113 CUDA:0 (NVIDIA GeForce RTX 3060 Laptop GPU, 6143.5MB)

hyperparameters: lr0=0.01, lrf=0.1, momentum=0.937, weight_decay=0.0005, warmup_epochs=3.0, warmup_momentum=0.8, warmup_bias_lr=0.1, box=0.05, cls=0.5, cls_pw=1.0, obj=1.0, obj_pw=1.0, iou_t=0.2, anchor_t=4.0, fl_gamma=0.0, hsv_h=0.015, hsv_s=0.7, hsv_v=0.4, degrees=0.0, translate=0.1, scale=0.5, shear=0.0, perspective=0.0, flipud=0.0, fliplr=0.5, mosaic=1.0, mixup=0.0, copy_paste=0.0
TensorBoard: Start with 'tensorboard --logdir runs\train', view at http://localhost:6006/
Weights & Biases: run 'pip install wandb' to automatically track and visualize YOLOv5  runs (RECOMMENDED)

autoanchor: Analyzing anchors... anchors/target = 5.22, Best Possible Recall (BPR) = 1.0000
Image sizes 640 train, 640 val
Using 3 dataloader workers
Logging results to runs\train\exp5
Starting training for 300 epochs...

     Epoch   gpu_mem       box       obj       cls    labels  img_size
     0/299     2.44G    0.1033    0.0341   0.02715         6       640: 100%|██████████| 17/17 [00:11<00:00,  1.52it/s]
               Class     Images     Labels          P          R     mAP@.5 mAP@.5:.95:   0%|          | 0/1 [00:00<?, ?it/s]C:\Software\anaconda3\envs\yolov5\lib\site-packages\torch\functional.py:445: UserWarning: torch.meshgrid: in an upcoming release, it will be required to pass the indexing argument. (Triggered internally at  ..\aten\src\ATen\native\TensorShape.cpp:2157.)
  return _VF.meshgrid(tensors, **kwargs)  # type: ignore[attr-defined]
               Class     Images     Labels          P          R     mAP@.5 mAP@.5:.95: 100%|██████████| 1/1 [00:00<00:00,  1.92it/s]
                 all          6          7    0.00254      0.542    0.00224   0.000657

     Epoch   gpu_mem       box       obj       cls    labels  img_size
     1/299     2.75G   0.09691   0.03036   0.02591         2       640: 100%|██████████| 17/17 [00:03<00:00,  4.82it/s]
               Class     Images     Labels          P          R     mAP@.5 mAP@.5:.95: 100%|██████████| 1/1 [00:00<00:00,  4.00it/s]
                 all          6          7    0.00213      0.417    0.00162   0.000586

在训练中，也可以随时查看每一轮次训练的结果，可利用tensorboard可视化训练过程，训练开始时会在runs/train/exp文件夹中产生一个“events.out.tfevents.1608924773.JWX.5276.0”文件，利用tensorboard打开即可查看训练日志。首先我们通过cmd进去该YOLOv5所在的项目文件夹，然后激活所用的虚拟环境，输入如下命令行：

tensorboard --logdir runs/train/exp

命令行输入信息的整体显示如下所示。如果运行这一步导致训练中断并报出cv::OutOfMemoryError的错误，则是因为内存不足导致，需更换轻量的模型或提高硬件设备。

(yolov5) D:\wjy\a00_Project\yolov5\yolov5-6.0-cat>tensorboard --logdir runs/train/exp7
TensorFlow installation not found - running with reduced feature set.
Serving TensorBoard on localhost; to expose to the network, use a proxy or pass --bind_all
TensorBoard 2.7.0 at http://localhost:6006/ (Press CTRL+C to quit)

到这一步后，我们就可打开 http://localhost:6006/ 网页查看每一轮次训练的结果，如图所示。我这里由于数据过少（只有62张）的原因，所有模型训练的很不精准。如果是用于正常工作的情况下，所需的数据集则要有成千上万张图片。
在这里插入图片描述

如果不更改训练结果所产生的路径的话，训练好后会在runs/train/exp文件夹得到如下文件，其中，我们训练好的权重为weights文件夹中的best.pt和last.pt文件，顾名思义，best.pt是训练300轮后所得到的最好的权重，last.pt是最后一轮训练所得到的权重。

在这里插入图片描述
训练好后可以选用验证集进行测试，测试文件为val.py。这里要明确的是，推理是直接检测图片，而测试是需要图片有相应的真实标签的，相当于检测图片后再把推理标签和真实标签做mAP计算。其实在train.py中的’–noval’已经设定好最终一次epoch完成后会自动进行测试，因此可以直接观察训练完成后文件夹内的结果文件和图片。

四、YOLOv5 实现检测

有了训练好的权重后，就可以就行目标检测测试了。直接在根目录的detect.py中进行调试，主要参数解释如下。我们平时用的话，主要用到的有这几个参数：–weights，–source，–img-size，–conf-thres，–project。

parser = argparse.ArgumentParser()
# 选用训练的权重，不指定的话会使用yolov5l.pt预训练权重
parser.add_argument('--weights', nargs='+', type=str, default=ROOT / 'runs/train/exp/weights/best.pt', help='model path(s)')
# 检测数据，可以是图片/视频路径，也可以是'0'(电脑自带摄像头)，也可以是rtsp等视频流
parser.add_argument('--source', type=str, default=ROOT / 'inference/videos/猫猫识别.mp4', help='file/dir/URL/glob, 0 for webcam')
# 指定推理图片分辨率，默认640
parser.add_argument('--imgsz', '--img', '--img-size', nargs='+', type=int, default=[640], help='inference size h,w')
# 置信度阈值，检测到的对象属于特定类（狗，猫，香蕉，汽车等）的概率，默认为0.25
parser.add_argument('--conf-thres', type=float, default=0.25, help='confidence threshold')
# 指定NMS(非极大值抑制)的IOU阈值，默认为0.45
parser.add_argument('--iou-thres', type=float, default=0.45, help='NMS IoU threshold')
# 每张图最多检测多少目标，默认为1000个
parser.add_argument('--max-det', type=int, default=1000, help='maximum detections per image')
# 检测的设备，cpu；0(表示一个gpu设备cuda:0)；0,1,2,3(多个gpu设备)。值为空时，训练时默认使用计算机自带的显卡或CPU
parser.add_argument('--device', default='', help='cuda device, i.e. 0 or 0,1,2,3 or cpu')
# 是否展示检测之后的图片/视频，默认False
parser.add_argument('--view-img', action='store_true', help='show results')
# 是否将检测的框坐标以txt文件形式保存(yolo格式)，默认False
parser.add_argument('--save-txt', action='store_true', help='save results to *.txt')
# 在输出标签结果txt中同样写入每个目标的置信度，默认False
parser.add_argument('--save-conf', action='store_true', help='save confidences in --save-txt labels')
# 从图片\视频上把检测到的目标抠出来保存，默认False
parser.add_argument('--save-crop', action='store_true', help='save cropped prediction boxes')
# 不保存图片/视频，默认False
parser.add_argument('--nosave', action='store_true', help='do not save images/videos')
# 设置只检测特定的类，如--classes 0 2 4 6 8，默认False
parser.add_argument('--classes', nargs='+', type=int, help='filter by class: --classes 0, or --classes 0 2 3')
# 使用agnostic NMS(前背景)，默认False
parser.add_argument('--agnostic-nms', action='store_true', help='class-agnostic NMS')
# 推理的时候进行多尺度，翻转等操作(TTA)推理，属于增强识别，速度会慢不少，默认False
parser.add_argument('--augment', action='store_true', help='augmented inference')
# 特征可视化，默认False
parser.add_argument('--visualize', action='store_true', help='visualize features')
# 更新所有模型，默认False
parser.add_argument('--update', action='store_true', help='update all models')
# 检测结果所存放的路径，默认为runs/detect
parser.add_argument('--project', default=ROOT / 'runs/detect', help='save results to project/name')
# 检测结果所在文件夹的名称，默认为exp
parser.add_argument('--name', default='exp', help='save results to project/name')
# 若现有的project/name存在，则不进行递增
parser.add_argument('--exist-ok', action='store_true', help='existing project/name ok, do not increment')
# 画图时线条宽度
parser.add_argument('--line-thickness', default=3, type=int, help='bounding box thickness (pixels)')
# 隐藏标签
parser.add_argument('--hide-labels', default=False, action='store_true', help='hide labels')
# 隐藏置信度
parser.add_argument('--hide-conf', default=False, action='store_true', help='hide confidences')
# 半精度检测(FP16)
parser.add_argument('--half', action='store_true', help='use FP16 half-precision inference')
# 在onnx推理中使用OpenCV DNN
parser.add_argument('--dnn', action='store_true', help='use OpenCV DNN for ONNX inference')
opt = parser.parse_args()

修改好参数后，直接执行detect.py文件，如果不更改检测结果所产生的路径的话，检测完成后会在runs/detect/exp文件夹得到检测后的视频。下面是输出视频的截图，可能是小猫的特征不是很明显，尤其是侧脸的识别效果并不是很好，训练数据集如果量大一点应该会有更好的效果。
在这里插入图片描述

版权声明：本文为CSDN博主「姜饼饼」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/oJiWuXuan/article/details/107558286

YOLOv5 实现目标检测（训练自己的数据集实现猫猫识别）

目前YOLOv5已经更新到v6.0版本了，本文适用于v3.0-v6.0间所有版本的各种配置，以及更新了YOLOv5的使用说明。需要注意的是v2.0之后版本的YOLOv5权重通用，但不兼容v1.0，因此不建议使用v1.0。

v6.0版本需要的Python版本>=3.7.0，PyTorch>= 1.7。v6.0版本新增yolov5 nano模型，其他模型结构也有修改，模型转换/导出友好，精度基本不变，速度相对于v5.0略有提升。

一、概要

二、环境配置

2.1 基本配置

2.2 pycocotools安装

2.3 apex安装(v3.1之后的版本不再需要安装apex)

三、YOLOv5 实现训练

3.1 准备工作

3.2 标记数据集

3.3 构建数据集

3.4 文件修改

3.4.1 数据集方面的yaml文件修改

3.4.2 网络参数方面的yaml文件修改

3.4.3 train.py中的一些参数修改

3.5 训练模型

四、YOLOv5 实现检测

【yolov3详解】一文让你读懂yolov3目标检测原理

机器视觉需求20230322

姜饼饼

暂无评论

发表评论取消回复

目前YOLOv5已经更新到v6.0版本了，本文适用于v3.0-v6.0间所有版本的各种配置，以及更新了YOLOv5的使用说明。需要注意的是v2.0之后版本的YOLOv5权重通用，但不兼容v1.0，因此不建议使用v1.0。

v6.0版本需要的Python版本>=3.7.0，PyTorch>= 1.7。v6.0版本新增yolov5 nano模型，其他模型结构也有修改，模型转换/导出友好，精度基本不变，速度相对于v5.0略有提升。

一、概要

二、环境配置

2.1 基本配置

2.2 pycocotools安装

2.3 apex安装(v3.1之后的版本不再需要安装apex)

三、YOLOv5 实现训练

3.1 准备工作

3.2 标记数据集

3.3 构建数据集

3.4 文件修改

3.4.1 数据集方面的yaml文件修改

3.4.2 网络参数方面的yaml文件修改

3.4.3 train.py中的一些参数修改

3.5 训练模型

四、YOLOv5 实现检测

【yolov3详解】一文让你读懂yolov3目标检测原理

机器视觉需求20230322

姜饼饼

暂无评论

发表评论 取消回复

相关推荐

发表评论取消回复