目标检测——基本评价指标

科研的基础,是要有一套可以客观评价方法效果的指标,这样不同的方法才具有可比性。
而目标检测任务相比图像分类任务更为复杂,随着研究的深入,各种各样的评价指标相继出现,针对不同任务,侧重的评价指标也各不相同,这里对目标检测中出现的基本评价指标做一点总结。

评价指标基础

针对正负样本二分类问题,有以下这些指标,这是理解后续内容的基础。

TP(True Positive):预测为正样本,真值也为正样本;
FP(False Positive):预测为正样本,真值为负样本;
TN(True Negative):预测为负样本,真值也为负样本;
FN(False Negative):预测为负样本,真值为正样本;

对于多分类问题,选定一个类别作为正类,其余皆看作负类,随后计算TP、FP、TN和FN,按照这个逻辑遍历所有类别即可。
TP、FP、FN、TN

Precision、Recall、F1-score、Sensitivity、Specificity

Precision(精确度,也叫查准度):代表预测为正样本的实际为正的概率。

p

r

e

c

i

s

i

o

n

=

T

P

T

P

+

F

P

.

precision = \frac{TP}{TP + FP}.

precision=TP+FPTP.
Recall(召回率,也叫查全率、敏感性Sensitivity):表示所有正样本中预测正确的概率。

r

e

c

a

l

l

/

s

e

n

s

i

t

i

v

i

t

y

=

T

P

T

P

+

F

N

.

recall/sensitivity= \frac{TP}{TP + FN}.

recall/sensitivity=TP+FNTP.
Specificity(特异性):表示所有负样本中预测正确的概率

s

p

e

c

i

f

i

c

i

t

y

=

T

N

T

N

+

F

P

.

specificity= \frac{TN}{TN + FP}.

specificity=TN+FPTN.
F1-score:仅用上述两个指标不好评定到底哪个模型更好,因为会出现一个模型的Precision比另一个模型高,但recall比另一个低的情况。所以出现了F1-score。

F

1

s

c

o

r

e

=

2

p

r

e

c

i

s

i

o

n

r

e

c

a

l

l

p

r

e

c

i

s

i

o

n

+

r

e

c

a

l

l

.

F1-score= \frac{2*precision*recall}{precision + recall}.

F1score=precision+recall2precisionrecall.
这些指标延续自分类任务,但在目标检测任务中要如何使用这些公式评价Bbox和GroundTruth的匹配程度呢?引入IoU的概念!并设定一个阈值,只要Bbox和GroundTruth的IoU高于这个阈值,那么我们就认为这个Bbox的预测是正确的,这个阈值一般使用0.5.
其中Sensitivity和Specificity常用于医学领域。

IoU (Intersection over Union)

IoU:简单来说就是交并比;用来反映预测检测框和真实检测框的检测效果。

I

o

U

=

A

B

A

B

.

IoU = \frac{\left|{A}\cap{B}\right|}{\left|{A}\cup{B}\right|}.

IoU=ABAB.
在这里插入图片描述

AP & mAP

AP这个评价指标来自Pascal VOC数据集,它针对VOC07和VOC12两个数据集有两种计算方法,两种计算方法的主要思想不变,细节稍有差别。
我们通常使用VOC07的计算方法。

简单地说,VOC07中的AP就是在平滑后的PR曲线上,从Recall坐标轴上均匀取11个点(0,0.1,…,1.0),然后求对应Precision的均值;VOC12中的AP则是平滑后的PR曲线下方的面积。

PR曲线则是通过设定不同的IoU阈值,计算该类别的Precision和Recall,然后绘制成的图像,如下图。
在这里插入图片描述
PR曲线的平滑处理:对PR曲线上的每个点,Precision的值取该点右侧最大的Precision值;另一说是从每个拐点水平向左拉一条线,直到相交。下图所示的即为平滑后的PR曲线。在这里插入图片描述
注意,AP是在单个类别下的,mAP是AP值在多个类别下的均值。

基于COCO数据集的评价指标

目前目标检测常用的评价指标为基于COCO数据集的评价指标,以YOLOv4为例:
在这里插入图片描述
在COCO数据集的评价指标中,AP意义上更接近VOC中的mAP,计算方法大体上同VOC2007方法,但为了提高精度,在PR曲线上采样了100个点进行计算,而且IoU阈值在0.5~0.95的区间上每隔0.05计算一次AP,取最后的平均值作为AP的最后结果。

AP50:IoU阈值为0.5时的AP测量值
AP75:IoU阈值为0.75时的AP测量值
APs:对于小目标(小于32×32)的AP值
APm:对于中等目标(大于32×32小于96×96)的AP值
APL:对于大目标(大于96×96)的AP值

有关COCO的评价指标和VOC的评价指标到底用哪个好,一般来说COCO的评价指标显然更加详细,但也并不是说VOC的评价指标就没有了意义,更多来说还是要根据所研究任务的关注点选择合适的评价指标。(在YOLOv3论文最后的讨论部分,也有作者锐评COCO评价指标,大家有兴趣可以去看看,还是很轻松有趣,但也不乏思考的讨论)

版权声明:本文为CSDN博主「HFUT_St」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_46266147/article/details/121656802

HFUT_St

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

单目3D目标检测调研

单目3D目标检测调研 一、 简介 现有的单目3D目标检测方案主要方案主要分为两类,分别为基于图片的方法和基于伪雷达点云的方法。   基于图片的方法一般通过2D-3D之间的几何约束来学习,包括目标形状信息&#xff0