文章目录[隐藏]
目录
———————————————————————————————
了解目标检测和手势识别代码后的收获
基于对卷积神经网络的了解,我进一步知道了R-CNN
一.R-CNN
R-CNN的全称是Region-CNN,是第一个成功将深度学习应用到目标检测上的算法。R-CNN基于卷积神经网络(CNN),线性回归,和支持向量机(SVM)等算法,实现目标检测技术。
传统的目标检测方法大多以图像识别为基础,R-CNN遵循传统目标检测的思路,同样采用提取框,对每个框提取特征、图像分类、 非极大值抑制四个步骤进行目标检测。只不过在提取特征这一步,将传统的特征(如 SIFT、HOG 特征等)换成了深度卷积网络提取的特征。
二.目标检测
这里进行了一段代码来看看目标检测的运行。
1.具体过程如下:
1.首先用Visual Studio Code将文件打开
2.然后将解压出来的文本yolox_tiny.pth放入yolox-pytorch-main\model_data中
3.接着修改程序中部分文件的路径
4.最后ctrl+f5运行程序
可以看到图片中分别识别出了杯子,手机,还有人;同时后面还跟着其分析出的相似度。
以上就是一个简单目标检测的过程,而R-CNN是一个在目标检测的基础上的一个算法
2.R-CNN基本工作流程:
1.接收一个图像, 使用Selective Search选择大约2000个从上到下的类无关的候选区域(proposal)
2.将提取出来的候选区域转换为统一大小的图片(拉升/压缩等方法), 使用CNN模型提取每一个候选区域的固定长度的特征.
3.使用特定类别的线性SVM分类器对每一个候选区域进行分类.
4.Bounding Box回归.
3.R-CNN的优点与不足:
R-CNN较之于传统方法的主要优势:
1. 使用了Select Search进行proposal的选择, 极大地减少了proposal的数量.(百万级别~2000左右)
2. 深度学习提取特征来代替人为设计, 较大地提高了精度和效率.
R-CNN的不足:
训练分为了多个步骤. 包括Select Search进行proposal的选择, CNN的模型训练, SVM的分类, Bounding Box回归等, 整个过程需要的时间过长.
除此之外
提一下上面文件中出现的YOLO:
YOLO (CVPR2016, oral)
(You Only Look Once: Unified, Real-Time Object Detection)
YOLO一类的方法使用了回归的思想,利用整张图作为网络的输入,直接在图像的多个位置上回归出这个位置的目标边框,以及目标所属的类别。
作为了解便可,以后再继续学习,同时还有目标检测的多方面应用。
———————————————————————————————
三.手势识别
手势识别:是计算机科学和语言技术中的一个主题,目的是通过数学 算法 来识别人类手势。
下面运行一个简单的手势识别代码:
这是一个简单的二维手势识别,二维手势识别拥有了动态的特征,可以追踪手势的运动。
当然,现在的手势识别从二维识别发展到三维手势识别,从静态发展到动态识别,更甚至可以识别各种手型、手势和动作。常见的有通过传感器和光学摄像头来完成。
而目前主要有3种硬件实现方式,加上先进的计算机视觉软件算法就可以实现三维手势识别了。
包括:结构光(Structure Light)、光飞时间(Time of Flight)、多角成像(Multi-camera)
!! 有兴趣的时候可以多去了解看看!!
版权声明:本文为CSDN博主「Rise9z」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_63647674/article/details/121569570
暂无评论