目标检测：SmartDet、Miti-DETR和Few-Shot Object Detection

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜ComputerVisionGzq

学习群｜扫码在主页获取加入方式

论文地址：

SmartDet：https://arxiv.org/pdf/2201.04235.pdf

Miti-DETR：https://arxiv.org/pdf/2112.13310.pdf

Few-Shot Object Detection：https://arxiv.org/pdf/2201.02052.pdf

计算机视觉研究院专栏

作者：Edison_G

最近阅读了几篇额外的检测paper，自己小小总结了下，在此也和大家分享，有兴趣的同学可以下载论文在深入解读！

链接: https://pan.baidu.com/s/1hyLejH0ewBLxo3QnJJ776Q 密码: 8r4n

移动设备越来越依赖于通过深度神经网络(DNN)进行目标检测(OD)来执行关键任务。由于它们的高度复杂性，这些DNN的执行需要过多的时间和精力。低复杂度目标跟踪(OT)可与OD一起使用，后者定期应用以生成用于跟踪的“新”参考。但是，使用OD处理的帧会产生较大的延迟，这可能会使参考过时并降低跟踪质量。

在这里，研究者建议在这种情况下使用边缘计算，并建立并行的OT(在移动设备上)和OD(在边缘服务器上)进程，以适应大的OD延迟。提出了Katch-Up，这是一种新颖的跟踪机制，可以提高系统对过度OD延迟的恢复能力。然而，Katch-Up在显着提高性能的同时，也增加了移动设备的计算负载。因此，研究者设计了SmartDet，这是一种基于深度强化学习(DRL)的低复杂度控制器，可以学习控制资源利用率和OD性能之间的权衡。SmartDet将与当前视频内容和当前网络状况相关的上下文相关信息作为输入，以优化OD offloading的频率和类型，以及Katch-Up利用率。

在由作为移动设备的JetSon Nano和作为边缘服务器的GTX 980 Ti组成的真实测试平台上广泛评估SmartDet，通过Wi-Fi链接连接。实验结果表明，SmartDet在跟踪性能——mAR和资源使用之间取得了最佳平衡。对于具有完全Katch-Up使用和最大通道使用的基线，研究者仍然将mAR增加4%，同时使用与Katch-Up相关的50%的通道和30%的电源资源。对于使用最少资源的固定策略，研究者在1/3的帧上使用Katch-Up时将mAR提高了20%。

链接: https://pan.baidu.com/s/1P86IGv2jBgL-jnJp6iy0IA 密码: w0mi

使用Transformers进行目标检测(DETR)和相关工作达到甚至超过了高度优化的FasterRCNN基线以及自注意网络架构。受纯self-attention具有强烈的归纳偏差的证据的启发，这会导致Transformer在网络深度方面失去表达能力，研究者通过在Transformer中应用可能的直接映射连接，提出了一种具有缓解self-attention机制的Transformer架构减轻等级崩溃的架构，以抵消特征表达损失并增强模型性能。

研究者将此提议应用于目标检测任务，并开发了一个名为Miti-DETR的模型。MitiDETR将每个注意力层的输入保留到该层的输出中，以便“非注意力”信息参与任何注意力传播。形成的残差自注意力网络解决了两个关键问题：

最大程度地阻止自注意力网络退化到rank-1
进一步多样化参数更新的路径分布，以便更容易地学习注意力

Miti-DETR在具有挑战性的COCO目标检测数据集上显着提高了现有基于DETR模型的平均检测精度和收敛速度。此外，所提出的带有残差自注意力网络的转换器可以很容易地推广或插入其他相关的任务模型，而无需特定的定制。

链接: https://pan.baidu.com/s/15i6cfrPXNv4AwVXB-jLu-g 密码: u9ro

attention-based FSOD method

Few-Shot Object Detection(FSOD)是计算机视觉中一个快速发展的领域。它包括查找给定类集的所有出现，每个类只有几个带注释的示例。已经提出了许多方法来应对这一挑战，其中大多数是基于注意力机制的。然而，种类繁多的经典目标检测框架和训练策略使得方法之间的性能比较变得困难。

Alignment Attention Fusion (AAF) module

特别是，对于基于注意力的FSOD方法，比较不同注意力机制对性能的影响是很费力的。该paper旨在弥补这一不足。为此，提出了一个灵活的框架，以允许实施文献中可用的大多数注意力技术。为了正确引入这样的框架，首先提供了对现有FSOD方法的详细回顾。然后在框架内重新实现一些不同的注意力机制，并与所有其他固定参数进行比较。

！下面的投票，请同学们积极参加，为了给大家带来更好的知识分享！

投票

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！