OTA:目标检测的最优运输分配

 

引言

        该论文主要是关于目标检测中的标签分配问题,作者创新性地从全局的角度重新审视了该问题,并提出将标签分配问题看成是一个最优运输问题。要知道最优传输问题是当前最优化理论和GAN理论研究领域中的一个很火的研究课题。论文的实验效果俱佳,而且作者还提供了相应的源码。

术语介绍:

标签:就是图片的特征。

检测:不但分类而且还有定位盒子(通过盒子中心点和长宽)

分类:建立输入与输出的关系(比如特征),输入是图片,输出是标签,此物的特征;所以说呢,此物的特征是需要做的,而大量训练过后,就找到了特征和联系,再次输入,检测到特征,即输出。

目标特征检测:通过训练大量目标物的坐标,之后输入新的,也会得到特征点

目标检测:通过训练大量目标的坐标,如果输入新的目标物之后,经过训练好的处理后,会得到相应的特征点。这就是所谓的标签分配问题。

最优运输问题:但是在实际问题中绝大多数问题往往都是产销不平衡的,因此就需要将产销不平衡问题转化为产销平衡问题。

1、论文动机

当前基于卷积神经网络的目标检测器是通过预测一组预定义锚点的分类标签进行目标检测。

 术语介绍:

卷积神经网络:某一因素或指标相对于某一事物的重要程度。

单个神经元:

 三级神经网络:

        上图中最左边的原始输入信息称之为输入层,最右边的神经元称之为输出层(上图中输出层只有一个神经元),中间的叫隐藏层。

啥叫输入层、输出层、隐藏层呢?

输入层(Input layer):众多神经元(Neuron)接受大量非线形输入讯息。输入的讯息称为输入向量。
输出层(Output layer):讯息在神经元链接中传输、分析、权衡,形成输出结果。输出的讯息称为输出向量。
隐藏层(Hidden layer):简称“隐层”,是输入层和输出层之间众多神经元和链接组成的各个层面。如果有多个隐藏层,则意味着多个激活函数。

2、论文模型

最优传输理论可以被描述为如下供需关系的形式:假定在一个区域内有m个供应商和n个需求方。第i个供应商有si个单元的货物,第j个需求方需要dj单元的货物。从供应商 到需求者 的单位货物的运输成本为 。最优传输问题的目标是找到一个最优传输方案使得供应商的所有货物可以以最低的运输成本运输给需求方。

以上问题是一个可以在多项式时间内求解的线性规划问题。在目标检测中,这个线性规划问题的规模很大,作者通过采用Sinkhorn-Knopp快速迭代法求解这个线性规划问题。

 术语介绍:

线性规划问题:

在一定条件下,合理安排人力物力等资源,使经济效果达到最好.一般地,求线性目标函数在线性约束条件下的最大值或最小值的问题,统称为线性规划问题。满足线性约束条件的解叫做可行解,由所有可行解组成的集合叫做可行域。决策变量、约束条件、目标函数是线性规划的三要素。

拉格朗日乘数:

        拉格朗日乘数法(Lagrange Multiplier Method)在数学最优问题中,是一种寻找变量受一个或多个条件所限制的多元函数极值的方法。记得以前大学高数、数模等课程多次提到过,在求解最有问题中很有用处,最近重温了下拉格朗日乘数法的思想:拉格朗日乘数法将一个有n个变量与k个约束条件最优化问题转换为一个有n + k个变量的方程组的极值问题,其变量不受任何约束。这种方法引入了一种新的标量未知数,即拉格朗日乘数:约束方程的梯度(gradient)的线性组合里每个向量的系数。此方法的证明牵涉到偏微分,全微分或链法,从而找到能让设出的隐函数的微分为零的未知数的值。

2.1、最优传输理论中的标签分配

 术语介绍:

熵、交叉熵:

        简单来说,嫡是一个用来衡量系统混乱程度的物理学概念。一个系统越混乱,嫡越大,反之,一个系统越有序,嫡越小。而根据嫡增定律,炖这一个物理量,在一个封闭系统内,只能增加或不变不能减少,就好比,如果没有人帮你打扫房间,你的房间只能越来越乱,而不会自动变得整洁有序。所以,如果想要让系统有序,就必须有持续不断的能量从外部输入进来。听到这里你想到了什么?是不是吃饭?没错,从嫡的角度来讲,如果将人体当做一个系统,那么根据嫡增定律,这个系统在没有能量补充的情况下,会逐渐崩溃,慢慢从有序的各种器官、细胞,变的混乱无序,人体也就消亡了。但是,当人类利用吃饭来减少身体的嫡增的时候,通过消化食物产生的热量造成的外部系统嫡增值,永远小于身体系统的嫡减值,在更大的系统视角下,嫡还是增加了。
所以,根据这个定律,我们还会得到一个恐怖的结论,那就是,我们自身,我们生活的人类社会,地球乃至整个宇宙,因为嫡增定律的不可逆效果,最终都将消亡,整个宇宙成为一个处处一样的死寂存在。
IOU:

        交并比,是目标检测中最常用的指标,在anchor-based的方法中,他的作用不仅用来确定正样本和负样本,还可以用来评价输出框(predict box)和真实检测框ground-truth的距离。反映预测检测框与真实检测框的检测效果.       

                                               

FPN:图像金字塔。

  1. 图像中存在不同尺寸的目标,而不同的目标具有不同的特征,利用浅层的特征就可以将简单的目标的区分开来;利用深层的特征可以将复杂的目标区分开来;
  2. 图中我们在第1层(请看绿色标注)输出较大目标的实例分割结果,在第2层输出次大目标的实例检测结果,在第3层输出较小目标的实例分割结果。检测也是一样,我们会在第1层输出简单的目标,第2层输出较复杂的目标,第3层输出复杂的目标。

 2.2、最优传输模型——方法改进

3、实验结果

3.1、消融研究与分析——动态K估计法

3.2、消融研究与分析——“中心先验”

1、我们观看图中的红色箭头和虚线椭圆的部分,这些是检测过程中突出的不明确的区域。

2、由于缺乏上下文和全局信息,可以通过三组图片明显的观察到OTA算法再不确定位置处的积极锚要少,这为提高准确为锚框进行标签分配概率。是种理想的结果。

 

版权声明:本文为CSDN博主「小西程序员之路」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/xiaoxixicc/article/details/122164712

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐

Yolo系列知识点梳理(Yolov1-v5)

1 概述 Yolo系列的模型是大多数做目标检测的图像算法工程师都在使用的,使用时经常也是先用了看看效果再说,如果效果不错,有时间再回头来研究一下模型,有时甚至就忘了回过头来细究。这篇文章