论文阅读 之 Person Re-identification in the Wild

代码链接:Github链接
原文链接:CVPR 链接

1. 文章研究的主要问题

之前的行人重识别工作往往从手工绘制或自动检测到的边界框开始,而且很少分析行人检测任务对行人重识别的影响。本文从三个方面探索了行人检测和行人重识别之间的相互影响:

  1. 分析了各种检测和识别方法的组合对 person re-ID 准确率的影响
  2. 研究了行人检测是否可以帮助提高行人重识别的准确性并概述具体的做法
  3. 研究了能够最大程度提高行人重识别精度的检测器的选择

现有的行人检测和行人重识别数据集缺乏组合评估行人检测和行人重识别任务的注释,因此文章提出了 Person Re-identification in the Wild (PRW) 数据集。

此外,文章还提出了端到端的行人重识别基线和指标。

端到端的行人重识别过程:检测器从原始视频帧中检测行人构成 gallery,选取一个感兴趣的人作为 query,gallery 边界框依照和 query 的相似度进行排序。
在这里插入图片描述

2. PRW 数据集

PRW 数据集共 11, 816 帧图片,包括 932 个行人, 有 34,304 个边界框。下图给出了 PRW 数据集和其他 Re-ID 数据集的情况对比。

在这里插入图片描述

2.1 PRW 数据集的注释

PRW 数据集的注释既包括边界框,也包括 ID 注释,行人编号 ID 的范围是 1 到 932 。
PRW 数据集既包括原始视频帧,又包括手绘的 ground truth 边界框,因此可以灵活地用来评估行人检测和行人重识别模型。
在这里插入图片描述
下图给出了 PRW 数据集中的一些检测框样例,
在这里插入图片描述
PRW 数据集的训练集、验证集和测试集的划分如下:
在这里插入图片描述
PRW 数据集的行人高度和宽高比分布如下:
在这里插入图片描述

2.2 PRW 数据集的评估

评估 检测任务时,使用 precision-recall curve(PR 曲线)和 average precision(AP)。针对行人检测,还报告了 log-average miss rate (MR) 。
评估 re-ID任务时,使用 mean Average Precision (mAP),即所有 queries 的平均准确度 (AP) 。还有 rank-1、rank-10、rank-20 的准确度。gallery 边界框的 ID 根据和 ground truth 的 IOU 值确定,当 IOU 大于 0.5,给检测框分配一个 ID;当 IOU 小于 0.5,检测框被视作干扰项。

3. 模型改进

模型包括行人检测和行人重识别两种组件,文章还提出了改进措施:级联微调策略 Cascaded fine-tuning strategy 和 置信度加权的相似度 Confidence Weighted Similarity 。

3.1 Cascaded fine-tuning strategy

之前有文献使用单步微调策略: ImageNet 预训练后的模型在 Market-1501 数据集上进行微调,最后生成特征描述符 IDEimgnet 。
文章提出的改进 :Cascaded fine-tuning strategy 是一个两级微调策略。先在 PRW 数据集上训练一个 R-CNN 模型,区分行人和背景。然后再用 IDE 微调 R-CNN 模型,最后生成特征描述符 IDEdet 。
使用级联微调策略训练模型,特征描述符“看到”了更多的背景训练样本以及更多由 PRW 的检测标签提供的行人(标记为“-2”)。 因此,特征描述符 IDEdet 提高了判别能力,从而减少了错误检测对背景的影响。
在这里插入图片描述

3.2 Confidence Weighted Similarity

以前的工作在估计 gallery 边界框与 query 的相似度时平等对待所有 gallery 边界框 。 这会导致:随着检测到背景的错误越来越多,re-ID 准确度将随着 gallery 的大小而下降。 文章建议通过将检测置信度纳入相似性测量来解决这个问题。 直观地说,误报检测将获得较低的权重,这将减少对 re-ID 准确性的影响。

具体来说,所有gallery 边界框的检测器置信度以全局方式线性归一化为 [0, 1]。 然后,计算两个描述符之间的余弦距离,再乘以归一化置信度。

4. 实验

4.1 行人检测的评估

首先,通过实验评估了 PRW 上训练的几个重要检测模型的检测召回率。 这是对基于 RCNN 的方法 proposals 有效性的重要参考。
从如下图所示的基准测试结果可以看出,给定提案类型,RCNN 的有效地提高了检测性能。
当 IoU 从 0.5 增加到 0.7 时,检测器召回率显着下降。
在这里插入图片描述

随着 IoU 的增加,检测器性能显着下降,PR 曲线如下图所示。

在这里插入图片描述

4.2 行人重识别的评估

在 PRW 数据集上,对最近提出的一些描述符和距离度量的性能进行了基准测试。

测试的检测器:DPM、ACF、LDCF 及其相关的 RCNN 方法。
测试的描述符包括 Bag-of-Words 向量 、 IDE 描述符、SDALF 、LOMO 、HistLBP 和 gBiCov 。
使用的度量学习方法包括 Kissme 、XQDA 和 DNS 。

如下表所示,IDE 描述符与其他描述符相比产生了更高的准确性,这验证了基于 CNN 的描述符的有效性。
在这里插入图片描述

每张图像检测到的边界框的数量也会对 re-ID 性能产生影响。 当检测到的边界框太少时,很有可能没有检测到我们的感兴趣的人,因此整体 re-ID 准确性可能会受到影响。
但是当检测到过多的边界框时,干扰因素可能会对重新识别精度产生负面影响,因此随着每张图像的边界框数量的增加,精度会慢慢下降,如下图所示。

而且值得注意的是,随着边界框的增多,行人检索的时间也会增加
给定一个识别器,我们发现在 IoU>0.7 的情况下,整体 re-ID 准确率的表现与 IoU>0.5 下的检测准确率更一致,这表明 IoU>0.7 是在 re-ID 应用下检测器评估的更好标准。
在这里插入图片描述

4.3 检测器对行人重识别的影响

更好的检测器将导致更高的重新识别精度。 那么在 person re-ID 场景下如何评估检测器的质量呢?

  • 评估检测器的质量的准则

仅考虑行人检测时,使用 IOU > 0.5 下定义的 AP 或 MR。文章认为,除了提供高召回率和精度外,检测器提供良好的定位结果至关重要。 文章发现:用于人员 re-ID 场景中的检测评估 IoU > 0.7 是比 IoU > 0.5 更有效的标准。
文章认为在正常情况下,更好的定位结果将使 query 和 gallery 框之间的匹配更准确。

  • 证明级联微调策略的有效性

本文介绍了两种 IDE 变体。 对于第一个变体,直接从在 ImageNet 上预训练的 AlexNet 微调 IDE,表示为 IDEimgnet。
对于第二个变体,首先对在 ImageNet 上预训练的 AlexNet 中的行人检测模型(2 类,行人和背景)进行微调,然后使用 PRW 上的识别模型对其进行进一步微调。 我们将第二个变体表示为 IDEdet,它通过级联微调方法学习特征。实验证明了级联微调策略的有效性

在这里插入图片描述

  • CWS的有效性证明

如下图所示,CWS 可以有效地防止随着每张图像的检测次数增加而导致 re-ID 准确度下降。
当数据库变大时会出现更多干扰因素,CWS 通过抑制 false positive 结果的分数来解决问题。

在这里插入图片描述
下图展示了一些 re-ID 采样结果。 对于第 3 排的失败案例,太多的行人穿着类似的衣服。 对于第 4 行,query 被相机裁剪,导致行人匹配受损。
在这里插入图片描述

版权声明:本文为CSDN博主「star_function」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_39220334/article/details/121913559

star_function

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

目标检测中的数据格式转换工具Roboflow

目标检测中的数据格式转换工具、Roboflow Roboflow提供了您需要的所有工具,将原始图像转换为定制的训练有素的计算机视觉模型,并部署它在您的应用程序中使用。 Roboflow支持检测目标和分类模型。 支持多种标注格式的转换: