文章目录[隐藏]
目录
综述:通用对象检测中的遮挡处理
摘要:深度学习网络的强大力量导致了目标检测领域的巨大发展。在过去的几年中,对象检测器框架在准确性和效率方面都取得了巨大的成功。然而,由于一些因素,它们的能力与人类相差甚远,遮挡就是其中之一。由于遮挡可以发生在不同的位置,规模和比例,这是非常难以处理。在这篇论文中,我们解决了在户外和室内场景中一般目标检测中的遮挡处理的挑战,然后我们参考了最近已经开展的工作来克服这些挑战。最后,讨论了未来可能的研究方向。
关键词:目标检测,室内场景,室外场景,生成对抗网络,模态感知,实例分割,组合模型
1.简介
作为人类,我们在探测和识别周围环境中的物体时是非常快速和准确的,即使在各种条件下,物体是部分可见的。我们的大脑能够补偿看不见的部分,并连接可见的区域来识别物体[1]。计算机离完成这项任务还很远。然而,随着深度神经网络的发展和大量数据的获取,计算机视觉特别是目标检测领域取得了显著进展。目标检测包括两个子任务:目标分类和目标定位。
目标检测器分为一级检测器和二级检测器两种。后者使用候选区域网络产生感兴趣区域(ROI),并应用深度神经网络将每个建议分类到类类别。然而,第一种类型认为对象检测是一个回归问题,因此它使用一个统一的框架来学习类概率和边界框的坐标。这使得一级探测器比其对应的更快。最有效的最先进的检测器是更快的RCNN [2], SSD[3]和YOLO[4]。
然而,由于杂波、成像条件、大量的目标类别和实例、遮挡[5]等因素,目标检测是一项具有挑战性的任务。
当对象被同一类型的对象隐藏(称为类内遮挡),或者对象被固定元素或另一类型的对象遮挡(称为类间遮挡)时,就会发生遮挡。在部分遮挡的情况下,基于深度神经网络的分类器的鲁棒性低于人类[6],恶化了检测器[7]的性能。因此,遮挡处理在行人检测[18]3[18]2[10][11]、物体跟踪[12][13][18]0、人脸检测[18]1[16]、立体图像[17]、汽车检测[18][19]、语义部分检测[20][21]等方面得到了广泛的研究。然而由于对象类别和实例的大量变化,从单一静止图像中检测通用对象的遮挡处理要困难得多。
尽管户外场景中存在大量的目标检测数据集,但遮挡处理的主要问题是缺乏标注遮挡数据的可用性。其他问题有遮挡存在的检测,恢复对象的遮挡区域,检测遮挡对象。
遮挡也被研究在室内场景,但有几个问题使它具有挑战性。首先,家具的刚性性质限制了人们从不同角度全面地观察物体。其次,没有大规模的真实室内场景的遮挡数据集。最后,物体的大小相对于在户外发现的,这意味着当它们被遮挡时,可见区域可能没有足够的信息被识别。因此,它变得更难再生遮挡的对象。
目前已有多篇关于目标检测的综述和调查论文。最近的研究是Liu等人在[5]中的工作,他们调查了基于深度学习的通用目标检测的可用数据集和方法。Chen et al.[22]提出了小目标检测的挑战和解决方案,Zhao et al.[23]对最近的深度学习目标检测方法进行了回顾和分析。
然而,据我们所知,在最近的文献中并没有关于遮挡处理的回顾。鉴于遮挡处理在一般对象检测中的重要意义,我们对这一领域最近的工作进行了综述。并对未来的研究方向进行了展望。
本文就静止图像中的目标检测进行了综述。因此,其他应用程序中的遮挡处理不在本文的讨论范围之内。
2.目标检测的应用
户外场景中目标检测的两个重要应用是自动驾驶[24][25]和目标跟踪。在自动驾驶汽车中,汽车需要具备检测道路上各种物体的能力,如其他车辆、行人、交通和道路标志、障碍物等。
另一方面,在室内环境中检测物体最明显的应用是“获取和传递”任务,这是服务机器人[27]的主要功能。机器人不仅需要识别周围的物体来找到它要寻找的物体,还需要对它所处的空间区域进行语义标记和分类,这是另一个叫做场景理解和分类[28]的应用。
3.数据集
自深度神经网络发展以来,数据集一直是推动计算机视觉发展的关键因素。通用对象检测最常用的数据集是PASCAL VOC[29]、MS COCO[30]、ImageNet[31]和Open Images[32]。Liu等人对这些数据集进行了深入的讨论。为了避免重复[5]中已经解释过的内容,我们将专注于室内环境中的图像数据集。
Ehsani等人在[33]中引入了一个可用的数据集,称为DYCE数据集,其中包含合成的遮挡对象。这些图像是在室内拍摄的。有11个合成场景,包括5个客厅和6个厨房。每个场景有60个对象,每张图像中可见对象的数量(至少10个可见像素)为17.5个。
此外,[34]的作者给出了TUT室内数据集,包含2213帧,包含来自7个类的4595个对象实例。每框尺寸为1280 × 720。但是通过类的实例数并不相等。一个类有1684个最大实例,最小实例是81个。数据集具有不同的背景、光照条件、遮挡和高类间变化。训练一个对象检测器(使用ResNet-101[35]的Faster RCNN)为一半的数据集生成建议注释。而另一小部分则由人类手动注释。因此,本研究提出了一种快速的包围框标注方法。
为了有效地训练真实室内场景中的遮挡模型,我们需要对场景中的遮挡对象进行大规模的带ground truth标签的全注释数据集。不幸的是,还没有这样的数据集。
对于户外场景,Qi等人[36]从KITTI[37]创建了KINS数据集,用于模态实例分割。它包含模态实例分割掩码和相应的遮挡顺序。三名专业的注释员给每张图像做了标记。模糊问题通过众包来解决,以确保被遮挡的区域被一致标记。
除了前面提到的数据集,还有ScanObjectNN(包含用CAD数据创建的室内场景)[38],BigBird [39], NYC v2 [40], Places[41],以及[42]中提到的用于室内三维重建和同步定位与绘图的数据集(SLAM)。但这些不在这次审查的范围内。
4.户外场景的遮挡处理
在这一节中,我们处理在户外环境中的遮挡处理的挑战和每个解决方案。
A.数据收集
由于大量的对象类别和实例,收集和标记数据集与可能闭塞的每个类别的每个实例似乎是不可能的。因此,许多研究依赖于合成数据集或自动生成的示例:
1)生成对抗网络(Generative Adversarial Networks, GAN):自Goodfellow et al.[43]发明以来,生成对抗网络(Generative Adversarial Networks, GAN)已被广泛研究以训练生成模型。该框架有两个同时训练的对抗网络,即一个产生器和一个判别器。尽管训练生成器学习从随机潜在空间映射样本到数据,训练判别器区分真实和生成(假)样本。生成器的目标是通过使样本看起来尽可能接近真实数据来欺骗鉴别器。为了确保生成的数据来自特定的类或数据,可以使用[44]条件生成对抗网络(cGAN)。
Wang等人[45]认为,潜在的遮挡和变形甚至不能被大规模数据集覆盖。因此,他们提出了一种使用两种对抗网络的策略。1”),从COCO数据集生成示例,这对于快速rcnn很难分类。第一个对抗网络是对抗空间Dropout网络(ASDN),它学习如何遮挡对象,第二个网络是对抗空间变压器网络(ASTN),它学习如何旋转对象部件来创建变形。通过同时训练这两个网络对抗Fast-RCNN,后者学习处理遮挡和变形。
2)模态感知:是当物体部分被遮挡时,推断物体物理结构的能力。最近的研究,如[46][47][36]已经使用它来进行分割。模态分割对遮挡处理具有重要意义,因为通过模态分割和模态分割的比较,可以得到遮挡的存在、程度、轮廓和部分遮挡。
然而,模态实例分割中数据准备的困难使其成为一项具有挑战性的任务。因此,Li和Malik[46]通过向模态掩模添加合成遮挡来创建模态训练数据。首先,随机裁剪至少有一个前景对象实例的图像补丁。然后,它的补丁被从其他图像中提取的随机对象实例覆盖。覆盖对象的随机位置和比例确保了与底部贴片的轻度遮挡。然后使用原始模态分割掩码,将每个patch中与掩码一致的像素标记为正(属于对象),否定(背景)和未知(属于其他物体)。最终,原始模态蒙版包含了合成图像中最初可见的被遮挡物体的部分。这成为复合补丁的真正模态分割掩码。
用生成的合成图像和模态面具训练一个CNN得到原始面具。在具有真实遮挡的图像上进行测试时,即使在合成数据上进行训练,该模型也能有效地预测模态掩模。
B.遮挡检测
遮挡处理的关键问题之一是确定所讨论的对象是否被其他对象遮挡。很难分辨在图像中观察到的物体外观是物体的真实形状还是遮挡的结果。
[36] 中的Qi等人提出了多层编码(MLC)网络,采用了一个遮挡分类分支,提高了推断遮挡部分的模态感知能力。MLC有两个分支:提取和组合。第一个分支提取对象的抽象全局特征。为了制作可见和不可见部件的掩模,组合分支融合了全局和特定的局部特征。同时,利用遮挡分类方法预测遮挡的存在,增强了网络的模态感知能力。在KINS数据集上的实验结果表明,该模型能够增强模态和非模态实例的分割效果。
C.生成遮挡区域
处理遮挡的一个主要挑战是确定如何恢复对象的不可见部分。目前有三种解决方案:
1)模态实例分割:除了前面提到的模态实例分割的工作,Follmann等人[48]提出了一种端到端的可训练模态实例分割模型,称为遮挡R-CNN (Occlusion R-CNN, ORCNN)。该模型是Mask R-CNN的扩展,带有模态面具头和遮挡面具头,用于预测模态、非模态和遮挡面具在单个前向过程中同时用于对象实例(如图所示)。作者还介绍了一个新的D2S模态数据集和COCOA cls。第一个基于D2S[49],第二个来自[47]的COCOA数据集。数据增强用于在D2S模态数据集中包括中度到重度遮挡遮挡对象。结果表明,该模型在没有任何模态注释数据的情况下,在D2S amodal上获得了具有竞争力的结果,甚至在COCOA cls数据集上的性能都优于其基线。
2)部分完成:Zhan等人开发的用于部分完成遮挡对象以实现场景解遮挡的自监督框架。该框架依赖于部分完成概念的两个原则。首先,在有一个对象被几个其他对象遮挡的情况下,部分完成可以在一次涉及一个对象时逐步执行。第二,通过有意修剪一个被遮挡的对象,并训练网络重新创建未修剪的对象,网络可以学习部分完成被遮挡的对象。作者通过两个网络实现部分补全:部分补全网络掩码(PCNet-M)和部分补全网络内容(PCNet-C)。第一个网络用于生成与遮挡对象相对应的遮挡对象的遮挡掩码,第二个网络为掩码提供RGB内容。该框架在KINS[36]数据集和COCOA[47]数据集上进行了测试,结果表明,尽管该框架是在没有ground truth occlusion排序和modal masks的情况下训练的,但其性能与完全监督基线类似。
3)上下文编码器:Pathak等人[51]提出了一种卷积神经网络(CNN),它能够根据上下文生成图像的缺失补丁。提出的模型有一个编码器和一个解码器。当编码器从图像的上下文产生紧凑的潜在特征表示时,解码器可以从产生的表示产生图像的缺失部分。由于其无监督的性质,该模型必须学习图像的语义,并对缺失部分产生合理的假设。因此,对模型进行训练,以减少基于上下文捕捉缺失部分结构的重构损失,以及从分布中选择特定模式的对抗损失。结果表明,该模型能较好地修复图像的语义部分。但是,当纹理区域越高,模型的性能越差。
D.遮挡目标检测
最先进的目标检测器和基于深度神经网络的分类器在部分遮挡[52][7]下的准确率降低。因此,许多研究集中在提高现有方法识别和定位遮挡对象的能力。我们将其分为两类:
1)分类:根据Fawzi和Frossard[53]深度卷积神经网络(DCNN)在部分遮挡下。
DeVries和Taylor[54]认为cnn容易过度拟合,导致一般化较差闭塞。因此,他们为CNN提出了一种简单的正则化技术,称为Cutout,他们用部分遮挡的图像来增强训练数据。对于每个输入图像,随机选择一个像素作为一个固定大小的零掩模的中心点,从而去掉图像的邻近部分。但是,增加训练数据会导致训练时间的增加花费[7]。
另一方面,Xiao等人[55]提出TDAPNet来解决DCNN中的两个问题:过拟合和特征提取过程中的遮挡污染。他们提出了TDAPNet,这是一种深度网络,由三个部分组成:原型学习、部分匹配和自上而下的注意机制。前两部分帮助解决第一个问题,而第三部分处理第二个问题。通过DCNN提取特征后,应用原型学习。然后,部分匹配通过只比较可见部分来比较特征和原型,从而去除不相关的特征向量。最后,自上而下的注意调节通过过滤掉由遮挡引起的不规则激活,在遮挡体周围产生更纯粹的特征。通过去除底层的遮挡特征,模型对遮挡的鲁棒性更强。但根据Kortylewski等人[7]对有真实遮挡的图像所做的实验,该模型的可靠性不如人工遮挡的可靠。
此外,近年来许多研究集中在使用组合模型处理遮挡[52][56][57]。通过组合模型,一个对象可以用它的部件和它们的空间结构[52]来表示。合成模型有两个好处:1)我们可以创建一个遮挡模型,它可以忽略模型中被遮挡的区域。2)该模型可以对其结果提供解释,如:检测到的对象的个别部分的位置,对象[52]的遮挡区域。
Kortylewski等人在[52]中将DCNN的判别能力和组合的能力很好地推广到部分遮挡的物体。在该模型中,在训练过程中使用标准的DCNN进行图像分类。提取的特征被分组到字典中。字典中的元素类似于对象部件检测器,并学习每个类部件的空间分配。在测试过程中,DCNN试图通过一个前馈通道对输入图像进行分类。如果网络不能确定地预测图像的类,很可能图像是部分遮挡的。然后将提取的特征用于检测组成模型的部件。结果表明,即使在无遮挡数据上进行了训练,该模型也能比DCNN更好地识别部分遮挡的3D物体。然而,该模型在识别非遮挡物体[57]时的判别性不如DCNN。
2) 检测:尽管先进的检测器在检测未被遮挡的物体上取得成功,检测被遮挡的物体仍然是一个开放的问题。然而,最近的一些作品已经实现了合成模型来检测部分遮挡的物体。
Kortylewski等人在[57]中引入了DCNN和成分模型的统一模型,称为成分卷积神经网络(composition Convolutional Neural Network, comtionalnet)。在他们的提出的结构中,作者采用可微生成合成层代替DCNN的全连接头部。该网络利用组成层的生成特性,能够对部分遮挡对象进行鲁棒分类和局部遮挡定位。实验结果表明,虽然组合网络只使用类别标签进行训练,但能够正确定位闭塞器。它在分类部分遮挡对象方面也优于标准DCNN和其他相关技术,尽管没有对遮挡对象进行训练。
然而,根据Wang等人的研究,[56]组合网络并没有明确地将上下文与对象分开表示,因此在严重遮挡情况下,上下文对检测有负面影响。在合成网中,对于部分遮挡的物体没有鲁棒的边界框预测机制。为了管理上下文对被遮挡物体检测的影响,作者建议使用边界框标注对上下文进行分割。同时,将组合网中的基于部分的投票技术扩展到考虑对象中心附近边界框的两个相对角的投票。结果表明,本文提出的基于上下文感知的合成网即使在严重遮挡的情况下也能较好地检测和估计边界盒。
除了前面提到的,还可以使用上下文信息[58][59][60]和可变形卷积[61][62][63]来减少遮挡。
5.室内场景中的遮挡处理
由于室内场景结构、杂波、遮挡、光照等布局复杂多样,相对于室外场景[42],目标检测更具挑战性。在这一节中,我们提出了室内环境中物体遮挡处理的挑战,以及文献中存在的解决方法:
A.场景结构
室内元素和家具的布局和设计,在某些情况下阻碍了获得对象的全部视图,甚至部分视图。例如,在橱柜里其他物体后面寻找一个隐藏的盒子。因为碗柜的静态和刚性,它不可能从不同的角度观察对象。为了解决这个问题,有两种解决方案:
1)转盘:用于避免遮挡放置在一个圆桌上的对象,并允许安装在机器人上的相机绕着桌子去捕捉对象在不同的视点[64]。不同的视图用于提供对象的次优视图(NBV)来建模不可见的部分。
2)交互操作:[65]的作者认为,在混乱的场景中寻找一个被遮挡的对象不能通过使用单一的图像来完成。因此,使用腕部装有RGB和深度相机的机械臂,采用主动感知和交互式感知来寻找感兴趣的对象。当主动感知是在哪里相机移动捕捉对象从几个视点,交互式感知提供更好的理解从互动的场景。然后使用基于强化学习的控制算法和颜色检测器来寻找特定颜色的目标对象。
虽然在模拟过程中,机器人是用分离的手爪进行训练的,但在现实世界中,一些末端执行器的姿态在运动学上是不可行的。
Dogar等人[66]还指出,寻找对象的问题需要感知和操作来移动可能隐藏目标对象的对象。他们提出了两种搜索算法,一种是考虑对象间可见性和可达性关系的贪婪搜索算法;连通组件算法,利用期望时间找到目标作为优化准则
Krainin等人[67]使用机器人手臂在静态摄像机前对物体进行交互操作,以生成物体的3D模型。
尽管上述技术在某些适用的情况下可能是必要的,但它们需要对环境进行控制,这是不现实的,在现实世界中并不总是可能的。
B.训练数据
目前还没有大规模的室内场景对象遮挡数据库。
Georgakis等人[27]认为创建包含室内环境的所有可能性的注释数据集,如视角差异、光照条件、遮挡和杂波,将是费力和耗时的。与此同时,训练过的模型在不同的环境和背景下不能很好地概括。因此,他们提出了一种从另外两个数据集:gmu -厨房和华盛顿RGB-D场景v2生成新数据集的方法。合成的图像是由在几个位置、尺度、姿态和位置叠加物体实例而产生的。
另一方面,Dwibedi等[68]提出了一种简单的剪切粘贴方法,以最小的努力来合成训练数据。他们的主要直觉是基于最先进的检测器,如更快的RCNN,主要工作于基于局部区域的特征,而不是基于全局的特征。该方法自动剪切对象实例并将它们粘贴到随机背景上。然而,为了避免细微的像素伪影,训练算法被迫忽略这些伪影而专注于对象的外观。
C.恢复遮挡区域
遮挡可以发生在不同的规模、位置和级别。因此,很难训练模型来重新生成对象的不可见区域。以下方法用于分割和重新生成对象的闭塞区域:
1)GAN: Ehsani等人[33]使用GAN来解决产生物体遮挡区域的问题。他们的提出的SeGAN模型首先对不可见的部分进行分割,然后通过绘画产生它的外观。基于输入图像和对象可见区域的分割,模型产生一个RGB图像,其中对象的不可见区域重建。为了做到这一点,模型由两部分组成:分割部分是一个CNN,使用来自可视区域的信息为对象输出一个掩模,绘画部分使用cGAN产生对象的遮挡部分。SeGAN模型的损失函数是分割损失和绘画损失的结合。”图3”,显示SeGAN模型的架构。作者报告了SeGAN与DYCE数据集上的基线相比更好的结果。
2)语义分割:Purkait等人[69]提出,与其为图像中的每个像素分配一个标签,还不如实现一组语义标签,表示每个像素的可见性或不可见性。他们的工作使用了一个合成的数据集,这个数据集是SUNCG数据集的扩增,用来预测可见区域和遮挡区域的语义类别。他们使用U-Net架构[70],该架构有一个编码器和一个ReLUs解码器,但在最后一层,一个sigmoid激活函数与一个group-wise softmax一起使用。有从编码器到解码器的跳过连接。
将交叉熵损失网络的结果与分组语义损失网络的结果进行了比较,后者在预测闭塞像素的语义标签方面有更好的效果。然而,由于训练集是综合的,因此所提方法的实现被限制在有这种综合模型的环境中。在真实场景中,需要考虑遮挡部分的估计。
3)实例分割:通过扩展Mask RCNN架构,Wada等[71]提出了一种遮挡分割模型,他们称之为“relook Mask RCNN”。为了训练他们的模型,作者们创建了一个对象实例合成图像的数据集。而不是考虑实例遮挡分割作为一个单一的类(仅可见)的问题,作者把它作为一个多类(可见,遮挡)。它们还考虑掩码之间的关系,以正确推断实例的遮挡状态。为了了解这一关系,将Mask RCNN预测的实例掩码转换为密度图,在第二阶段(relook阶段)预测实例掩码。作为输出,模型预测三个掩模:可见、遮挡和其他(不属于对象)。
对该系统进行了实际的对象提取测试,结果表明了该系统的有效性。然而,系统需要一个具有所有可能的对象遮挡状态及其对应的标签和掩码的数据集,实现这一目标的努力随着对象数量的增加呈指数增长。
4)背景信息:huting等人[72]引入了透视模型,利用了室内场景中物体共生的相当规律性这一事实。通过考虑共生信息作为明确的先验,即使有严重的类间或类内遮挡,也可以预测目标的身份、位置和方向。作者在真实的室内标注图像上训练神经网络来提取二维关键点。提取的关键点被输入到三维候选对象生成阶段。然后利用从大型三维场景数据库中提取的对象共现统计信息来解决三维对象建议的选择问题。这个过程是重复的,使用已经发现的目标的位置,以增量地检测附近的候选对象的低关键点响应。结果表明,与它的两个基线、更快的3d RCNN和SeeingChairs相比,SeeThrough可以更准确地检测出在有中等或严重遮挡的场景下的椅子。
6.讨论及未来方向
基于GAN、模态分割和组合模型的报告结果,我们看到了这些技术在遮挡检测和处理方面的巨大潜力。GAN已被有效地用于在小物体检测中特征数量不足时增强特征[73],并再生闭塞的面部[74]。
然而,在遮挡处理中仍存在一些关键问题,可以作为该领域未来研究的方向。
首先,没有大规模的数据集可以用于室内环境中的物体遮挡。目前可用的数据大多是合成数据集,这意味着当一个模型在这样的数据集上训练时,它可能不能很好地适用于现实世界场景。此外,现有的户外场景数据集对遮挡区域缺乏足够的标注。
第二,为了在物体上应用解遮挡,我们首先确定物体是否被遮挡是至关重要的。虽然可以使用模态分割来解决这个问题,但如果注释不正确或不够充分,该解决方案可能是无效的。
最后,使用真实世界的训练数据而不是合成数据,提高当前模型在不同遮挡程度下重新生成遮挡对象的能力。
7.结论
自基于区域的网络发明以来,目标检测取得了长足的进步。它们不仅比以前更准确,而且还能获得实时结果。虽然在一般对象和特定对象的分类检测方面已经有了大量的研究,但是在一般对象检测中的遮挡处理仍然比较未被探索。许多著名的模型都不能及时发现目标遮挡。在这篇回顾中,我们已经介绍了最近的工作,努力解决咬合和在许多情况下再生对象。我们也指出了未来的研究方向,如果我们想克服遮挡处理的挑战在通用对象检测。
版权声明:本文为CSDN博主「心系五道口」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_38452951/article/details/116119436
暂无评论