MCCNN

Automatic Detection and Classification System of Domestic Waste via Multi- model Cascaded Convolutional Neural Network 基于多模型级联卷积神经网络的生活垃圾自动检测分类系统

1.摘要:

生活垃圾分类是我国最近才纳入法律规定的。然而,依靠人力来检测和分类生活垃圾是非常低效的。为此,我们提出了一种多模型级联卷积神经网络(MCCNN),用于家用垃圾图像的检测和分类。MCCNN结合三个子网(DSSD、YOLOv4和Faster-RCNN)获得检测结果。此外,为了抑制假正确例预测,我们利用分类模型与检测部分级联来判断检测结果是否正确。为了训练和评估MCCNN,我们设计了一个大规模的垃圾图像数据集(LSWID),包含了3万张包含52类的多标签生活垃圾图像。据我们所知,LSWID是关于家庭垃圾图像的最大数据集。此外,设计了一个智能垃圾桶(STC),并应用于上海的一个社区,这有助于提高垃圾回收的效率。实验结果显示了最先进的性能,检测精度平均提高了10%。

2.介绍

这些方法一般都是利用深度学习理论,通过卷积神经网络(CNN)对废弃物进行分类,其中最常用的模型是fast - rcnn、DSSD、YOLOv3、YOLOv4,它们在准确率、速度、尺寸等方面都有不同的优势。与一般的物体识别不同,垃圾具有不同的形状、大小,有时还会重叠。因此,仅依靠单一模型(fast - rcnn、DSSD或YOLOv3/v4),以及有限的特征提取能力来去除假正例预测,不足以解决这些相关障碍。因此,我们结合不同算法的优点,提出了一种基于深度学习的高精度、实用性强的生活垃圾自动检测分类系统。我们的方法使用三个子网(DSSD, YOLOv4和fast - rcnn)来获得垃圾图像的检测结果。此外,为了抑制假正例预测,我们利用分类模型与检测部分级联来判断检测结果是否正确。主要贡献如下所示。

2.1 我们提出了一种基于卷积神经网络模型的国内垃圾检测分类系统,与其他垃圾分类系统、并且是第一个能够有效区分厨余垃圾和非厨余垃圾的工作。

2.2 为了减少垃圾形状、大小甚至重叠引起的假正例预测,我们提出了一种基于多模型级联方法的深度卷积神经网络(mcnnn),用于国内垃圾图像的检测和分类。MCCNN融合了各种检测模型对目标形状、大小甚至重叠具有不同敏感性的优点,同时通过在检测模型后面串联一个分类模型来提高检测精度。

2.3 通过对大量数据(LSWID)的验证,该方法检测精度平均提高10%。此外,基于MCCNN模型的智能垃圾桶(STC)应用于社区,帮助居民进行垃圾分类,取得了有益的效果。

3.相关工作

2016年,JayDonovan创建了AutoTrash,可以使用树莓派驱动的模块和摄像头来识别和回收。需要指出的是,这个项目只能区分目标是回收还是堆肥,功能比较简单。同年,Yang和Thung提出了TrashNet,他们创建了一个包含大约2500张图像和6个类的数据集,这是手工收集的。他们的模型采用了具有尺度不变特征变换(SIFT)特征的支持向量机(SVM)和卷积神经网络(CNN),两种模型的准确率分别为63%和87%。TrashNet成为垃圾分类的公共基准;然而,到目前为止,这个数据集还没有公开。除了Trash- Net之外,我们还建立了TACO、AquaTrash、VN-trash等一些垃圾数据集,但它们都存在一些缺点,如特定环境下的垃圾数量相对较少。此外,该数据集不是开源的。Adedeji, Olugboja,和Wang, Zenghui继续Yand和Thung的工作。简化这个过程中,他们提出了一个智能废弃物分类系统,开发利用50-layer剩余净pre-train (ResNet - 50)卷积神经网络模型和支持向量机(SVM),用于分类垃圾分成不同的组/类型如玻璃、金属、纸张、塑料等。该系统在Gary Thung和Mindy Yang开发的垃圾图像数据集上进行了测试,结果表明该系统在垃圾图像数据集上的准确率达到87%。

由于单个模型不能取得很好的效果,因此我们采用级联的方式,在这个任务中,CNN扮演着重要的角色,但深层神经网络就像一个黑匣子。虽然它们可以提供卓越的性能,但它们缺乏可分解性,不能直观地理解,使其难以解释。为了使网络更加可见,描述了在cnn中使用全局平均池(GAP)生成类激活映射(CAM)的过程。通过CAM,我们可以清楚的知道图像的哪一部分对结果的影响更大。这种方法是有益的,但也有一些缺陷。首先,我们必须改变网络结构,如将全连接层改为全球平均池化层,这样不利于训练。第二,这是一种基于分类问题的可视化技术,对于回归问题可能没有那么好的效果。为了解决第一个问题,2017年出现了一种名为gradcam[20]的改进技术。Grad-CAM可以在不改变网络结构的情况下实现可视化,适用于多种场景。为了获得更好的结果(特别是当图像中某一特定类别中有多个对象时),Chattopadhyay等人。进一步提出Grad-CAM + +。主要的变化是对应于特定类别的特征图的权重。在表示中加入ReLU和权重梯度,梯度只需要一次反向传播即可计算。

4.方法

4.1 数据集和扩充

本文采用深度学习的方法对居民垃圾进行识别,但目前还没有统一的家居垃圾数据集。我们可以找到的关于废弃图像的数据集如下:AutoTrash, TrashNet, TACO和AquaTrash。其中AutoTrash有50个类别,每个类别有100张照片,仅用于图像分类。TrashNet是由Yang和Thung提出的,他们创建了一个包含大约2527张图像和6个类的数据集,这些数据集是手工收集的。TACO包含28个类别,1500张图片,4784个注释,用于垃圾图像分割。AquaTrash由4个不同类别的369张图片组成,这些图片与各种垃圾有关,包括玻璃、金属、纸和塑料。然而,我们的大规模垃圾图像数据集(LSWID)包含了3万张生活垃圾多标签图像,52类,在规模和质量上远远超过其他数据集。而我们的数据是在居民实际垃圾处理现场采集的,具有非常重要的现实意义。我们收集了3万张废弃图像,并对每张图像进行标记,形成一个大规模的废弃图像数据集(large waste image dataset, LSWID)。在我们的数据集中,图像覆盖一个标注目标到多个标注目标。在我们的数据集中,每个图像对应一个txt格式的文件。tx文件中每行的格式为classid、xcenter、ycenter、width、height,对应包围框的类别和位置数据。我们观察到餐厨垃圾中所含的非餐厨垃圾主要包括纸张、塑料、贝壳、大骨和香烟(80%以上),所以我们将在实验中对这五种垃圾进行培训和测试。为了提高实际项目的泛化性能,我们考虑对数据增强训练[22]进行预处理,在将训练源图像输入网络之前,对训练源图像进行随机亮度转换、拉伸转换和镜像转换。

4.2 架构

目标追踪很重要,所有的方法可以分为两级检测器和一级检测器 两阶段探测器将探测任务分为两个阶段:(1)生成proposals (ii)预测这些proposals 。如RCNN, SPP- Net, Fast RCNN, Fast -RCNN,而单阶段探测器没有一个单独的阶段来生成提案,如Over-Feat, YOLO, SSD, YOLOv2, RetinaNet, DSSD, YOLOv3和YOLOv4。近十年来,图像分类算法主要有VGG16、Xception、MobileNet、ResNet50和ResNet101。

在图像检测任务中,我们注意到与目标召回率相比,目标检测的精度更为关键,这意味着我们应该尽可能多地剔除误报预测。为了克服上述挑战,我们提出了MCCNN方法,该方法使用三个子网(DSSD、YOLOv4和Faster-RCNN)来获取垃圾图像的检测结果。此外,为了抑制false- positive 预测,我们利用分类模型与检测部分级联,以确定检测结果是否准确。

这三个子网络的组合有其各自的优势,有助于解决上述挑战。YOLOv4的特征提取层在训练过程中采用了特征金字塔下采样结构和Mosaic数据增强方法,因此对小目标检测有很好的效果。Faster-RCNN是一种两阶段检测算法。第一阶段是生成候选区域,第二阶段是对候选区域的位置进行调整和分类。识别错误率低。DSSD在模型中添加上下文信息。它可以更多地捕获深、浅特征图的信息,有利于解决重叠问题。

目标检测模型的最终预测结果是目标在图像中的位置和类别,而图像分类则是预测单个目标的类别。在实际应用过程中,我们知道衡量目标检测模型的标准是召回率和精度

减少fp对于提高精确度十分有必要,本文需要注意的是图片的位置和分类信息。在保证召回率的情况下,一般来说模型的准确率会比较高。本文采取了三个检测模型(DSSD, YOLOv4, and Faster-RCNN) 针对于不同的特征。ResNet101 用于验证检测的结果。

MCCNN的架构如图,首先就包含了两个部分,检测模型和分类模型。检测模型就包含了三个模型,其中含有Faster_rcnn, DSSD network, and YOLO4。然后NMS,得到位置和分类。最后检测一下,得到最后的信息。

      I代表了输入的图片。Rec modeli 则是代表了第i个检测网络。Cla model代表了分类的模型bboxes<i,j> 代表了第i个框的第j帧。涉及到了6个参数[x1,y1,x2,y2,conf,class]。confidence level, and category information。Res Cla 〈i, j〉 代表了属于第i个检测网络的在第j个检测帧的输出分类。

     大致步骤:先把所有有关垃圾信息的图片resize到固定的大小。然后输入到分类的模型当中。三个模型分别处理垃圾图片,最后的结果送入非极大抑制算法中进行运算。最后的结果是包含了bounding boxes的位置信息和分类信息。然后需要重新resize一下,并且加入到分类模型当中,从而输出类别信息,最后输出验证的分类信息。如果结果是连续的检测框,就进行保留,否则就删除。

5.损失函数

根据模型的架构,我们可以知道含有四个部分的loss

回归损失和分类损失,这对于定义MCCNN分类模型是兼容的。

6.实验与结论

首先,检测和分类是单独进行的模型。the detection model of MCCNN, YOLOv4, and DSSD are one- stage detection networks, Faster-RCNN is a two-stage detec- tion network. 同时都是建立在anchor_based 算法。我们选择了5804图片作为数据集。训练集和测试集9:1。anchor机制是RPN最常用的方法之一,并且每个模型的策略有所不同,至于各种预处理的操作,可以参看论文。

在分类阶段,重要的是召回率,就是到底有没有找出来。

系统评估:

NMS的IOU阈值设置为0.5

版权声明:本文为CSDN博主「热爱文学的码农」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_41887799/article/details/122673345

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

Fast RCNN论文总结

原文链接 [1504.08083] Fast R-CNN (arxiv.org) Abstract Fast RCNN在实现了几个创新点后在提升训练、测试速度的同时增加了检测的准确度 Introduction 检测需要准确的物体位置信