RestoreDet:低分辨率图像中目标检测

关注并星标

从此不迷路

计算机视觉研究院

17efc65d114116489961a05f75e44584.gif

1f1177e3c8c0b5a4fbfec627570b5e6c.gif

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

论文地址:https://arxiv.org/pdf/2201.02314.pdf

计算机视觉研究院专栏

作者:Edison_G

超分辨率(SR)等图像恢复算法是退化图像中目标检测不可或缺的预处理模块。然而,这些算法中的大多数假设退化是固定的并且是先验已知的。

一、前言

当真正的退化未知或与假设不同时,预处理模块和随后的高级任务(如目标检测)都会失败。在这里,研究者提出了一个新的框架,RestoreDet,来检测退化的低分辨率图像中的目标。RestoreDet利用下采样降级作为自监督信号的一种转换,以探索针对各种分辨率和其他降级条件的等变表示。

具体来说,通过编码和解码一对原始和随机退化图像的退化变换来学习这种内在的视觉结构。该框架可以进一步利用具有任意分辨率恢复解码器的高级SR架构来从退化的输入图像重建原始对应关系。表示学习和目标检测都以端到端的训练方式联合优化。RestoreDet是一个通用框架,可以在任何主流目标检测架构上实现。广泛的实验表明,基于CenterNet的框架在面对变质退化情况时与现有方法相比取得了卓越的性能。代码很快就会发布。

二、背景

由于大规模数据集,高级视觉任务(即图像分类、目标检测和语义分割)取得了巨大成功。这些数据集中的图像主要由具有更高分辨率和信噪比(SNR)的商用相机捕获。在这些高质量图像上进行训练和优化后,高级视觉在低分辨率或低质量图像上的性能会下降。为了提高视觉算法在退化的低分辨率图像上的性能,Dai等人[Is image super-resolution helpful for other vision tasks?]提出了第一个全面的研究,提倡使用超分辨率(SR)算法对图像进行预处理。其他高级任务,如人脸识别、人脸检测、图像分类和语义分割,也受益于恢复模块以提取更多区分特征。

三、新框架分析

9ae8fbcb7a30287e8221073a0fe92a65.png

研究者不是在严格假设下使用恢复模块显式增强输入图像,而是利用针对各种分辨率和退化状态的内在等变表示。基于上图所示的编码表示,研究者提出了 RestoreDet,这是一种用于在退化的LR图像中进行目标对象检测的端到端模型。为了捕捉视觉结构的复杂模式,利用下采样退化变换组作为自我监督信号。在训练过程中,通过随机退化变换t从原始HR图像x生成退化的LR图像t(x)。如上图所示,这对图像被送入编码器E以获取其潜在特征E(x)和E(t(x))。

为了训练编码器E学习退化等变表示,研究者首先引入一个变换解码器Dt来表示E(x)和E(t(x))解码应用的退化变换t。如果可以重建转换,则表示应尽可能捕捉它们在不同转换下如何变化的动态。

为了进一步利用快速增长的SR研究的优势,研究者引入了任意分辨率恢复解码器 (ARRD) Dr。ARRD从各种退化的LR图像t(x)的表示E(t(x))重建原始HR数据 x。ARRD Dr将监督编码器E对有助于后续任务的详细图像结构进行编码。基于编码表示E(t(x)),目标检测解码器Do然后执行检测以获取对象的位置和类别。在推理过程中,目标图像直接通过上图中的编码器E和目标检测解码器Do进行检测。与基于预处理模块的方法相比,研究者的推理pipeline计算效率更高。

为了覆盖实际场景中的各种退化,根据实际的下采样退化模型,通过随机抽样变换 t来生成退化的t(x)。如上图所示,变换t由下采样率s、退化核k和如下等式中的噪声水平n表征。

34e86102b865ec55963f763788c50755.png

4f95dcb0d7143c7985527edf7a799323.png

上图(a)是anchor free框架的CenterNet。图(b)说明了如何基于CenterNet实现的RestoreDet。详细的训练过程在Algo.1中给出。在训练RestoreDet时,原始HR图像x和变换后的退化LR图像t(x)被发送到编码器E以对退化等变表示进行编码。在这里,直接使用CenterNet的编码器E,但将其复制到共享权重Siamese结构中,分别接收HR和LR图像。

Algo.1

f8a0c92d57ca17a3c22010da4853755b.png

四、实验及可视化

MS COCO 和KITTI数据集上性能比较

1c53eb80c21ee1efd58b69468cfe7c80.png

140077aec95fb6fe40e240bed37a2e54.png

(a)/(b) is CenterNet trained on normal images and tested on normal/degraded down4 testset, (c)/(d)/(e) is CenterNet tested on the degraded image restored by individual SR algorithm RRDB/RealSR/BSRGan. (f) is the detection result of our RestoreDet and we use the output of ARRD Dr as background images.

© The Ending

转载请联系本公众号获得授权

fcd5ef3005cb3a456096c46ece598222.gif

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

9f110f3f2a5a75a6ee5f0322769aacb0.png

扫码关注

计算机视觉研究院

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

 往期推荐 

🔗

版权声明:本文为CSDN博主「计算机视觉研究院」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/gzq0723/article/details/122631840

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐