目标检测的一些基本概念

文章目录[隐藏]

一、分类定位问题（借助图片分类思路、一个物体）
- 图片中目标位于哪里就开始进行定位分类
二、目标检测问题（借助对象定位思路、多个物体）
- 先是定位出一张图有几个对象再将他们定位分类
三、基础知识
四、目标检测的分类
- 端到端没有候选区域
五、尺度变化，是一种检测质量在不同尺度之间发生显著变化的现象，源于对象在不同尺度上的不平衡分布。它仍然是目标检测中一个尚未解决的挑战。

暑假的时候对目标检测做了些研究，没有发什么博客，现在是整理了一下自己的笔记，主要是在吴恩达视频讲解的目标检测以及一些自己的理解，我之前在网上有找到一个目标检测过程的动图解析，觉得挺好的但是！我找不到链接了，如果uu们不能理解过程建议多去找找相关的介绍。

顺便建议大家去看看气泡大大的博客和视频讲解，气泡大大，我的超人！

https://blog.csdn.net/weixin_44791964/article/details/103276106?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163833896116780274171544%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=163833896116780274171544&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2_allfirst_rank_ecpm_v1~rank_v29_name-1-103276106.first_rank_v2_pc_rank_v29&utm_term=bubbliiiing&spm=1018.2226.3001.4187

一、分类定位问题（借助图片分类思路、一个物体）

图片中目标位于哪里就开始进行定位分类

通常只有一个较大的目标位于图片中间，用框识别定位出图片的确切位置并分类出图片属于哪个种类

二、目标检测问题（借助对象定位思路、多个物体）

先是定位出一张图有几个对象再将他们定位分类

不仅检测出所有的对象，同时还将他们识别定位

三、基础知识

1、分类pipeline：图片输入—神经网络—输出图中物体类别

2、detection pipeline：

—输出图中物体类别—— 图片输入—神经网络———多输出四个框（bx,by,bw,bh）用于表示bbox的信息

（bx,by,bw,bh）检测对象边界框的参数化表示

3、知道目标的中心点（bx,by）即可知道边界框bbox （高bh,宽bw）的具体位置

4、标签文件：bx,by,bw,bh

5、采用监督学习算法得到：5/n+4 = 1个分类标签/标签n个概率 + 4 个边界框位置信息

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-G9BRrnFp-1638352845993)(file:///D:\media3084704\Image\C2C\Image1\E5FB6D7E1EAB87B550A493774C496D46.png)]$

在这里插入图片描述

(图片有物体pc=1，否则pc=0，且其余信息均没有)

6、滑动窗口的目标检测：一张图片输入进卷积神经网络时，卷积核在图片上从左到右、从上到下滑动窗口，即将图片划分为一个一个小正方形输入到网络中并让卷积神经网络推断该小正方形内部是否有目标（0，1决定其中有没有物体），步长决定滑动窗口的速度；

缺点：1.每个小滑动窗口输入卷积神经网络导致计算成本过大；
	 2.步长太大会显著减少卷积网络的窗口个数，粗粒度（窗口过大）影响性能，细粒度（小窗口）小步长计算成本				又过高

	 3.效率低
解决措施：构建滑动窗口的卷积

7、滑动窗口的卷积实现：不用划分小窗口进行滑动，而是将图片整张输入进行前向计算并一次性直接判断目标及其 bbox，这样有很多重复计算，使得图片的边缘信息得到更多卷积的处理

缺点：bbox位置可能不够准确

8、YOLO(you only look once)：单个卷积实现目标检测功能，可以快速地实现实时检测

9、IOU()目标检测算法的评价方式：用IOU评估算法预测出来的边界框是否精准，training set中标注了人为标注的目标的准确位置信息，我们将training set喂入网络中，输出的是网络根据实际的预测出来的位置信息，预测框与实际框进行交并比处理从而实现对算法的评估

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aJWWrAoF-1638352724842)(C:\Users\Lan\AppData\Roaming\Typora\typora-user-images\image-20210807140154642.png)]$

IOU阈值设置的越大算法越精准，但一般设置为0.5，也可设置为以上，但不会低于0.5

10、划分的网格越小喂入网络中可以更大程度的避免多个目标的中心点位于同一个网格之中

11、NMS抑制：划分的网格过于小的时候，可能在同一个目标上的多个网格都会出现中心点，他们都会预测出相应的边界框，这时候同一目标就会有多个不同score的边界框，因此有NMS抑制。

  我们会先选择一定的score阈值，将低于这个阈值的所有边界框去掉，剩下的选择出数值max的边界框。

12、目标检测的缺点：一个格子只能检测一个目标，

解决办法：引入anchor boxes

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1m0AMQSm-1638352724845)(C:\Users\Lan\AppData\Roaming\Typora\typora-user-images\image-20210807152945242.png)]$

人和车的中心点同时在一个格子内出现，为了能够实现同一格子内多目标检测，引入anchor boxes，一个网格内可能有多个不同形状的anchor box ，一个anchor box 负责一个目标，比如box1的形状与人相近(树立的长方形)则负责检测人，box2的形状与车相近(横放的长方形)则负责检测车，并输出的y囊括了所有anchor boxes的内容。目标越多，y的维度越高。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mqNNFBp8-1638352724846)(C:\Users\Lan\AppData\Roaming\Typora\typora-user-images\image-20210807154117776.png)]$

13、region proposal(候选区域)：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tEjS9R9H-1638352724848)(C:\Users\Lan\AppData\Roaming\Typora\typora-user-images\image-20210807160134411.png)]$

如图，划分网格时，可能有的网格啥目标也没有，因此首先进行分割，将图片中的可能有而物体的区域划分出来再将这些区域放进分类器中进行处理。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iYALRxFD-1638352724849)(C:\Users\Lan\AppData\Roaming\Typora\typora-user-images\image-20210807162516556.png)]$

四、目标检测的分类

在这里插入图片描述

端到端没有候选区域

五、尺度变化，是一种检测质量在不同尺度之间发生显著变化的现象，源于对象在不同尺度上的不平衡分布。它仍然是目标检测中一个尚未解决的挑战。

版权声明：本文为CSDN博主「Randy@」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_51143009/article/details/121661088