网站首页 公文大全 个人文档 实用范文 讲话致辞 实用工具 心得体会 哲学范文 总结范文 范文大全 报告 合同 文书 信函 实用
  • 汇报体会
  • 节日庆典
  • 礼仪
  • 毕业论文
  • 评语寄语
  • 导游词
  • 口号大全
  • 其他范文
  • 百花范文网 > 实用范文 > 其他范文 > 小样本条件下的RGB-D显著性物体检测

    小样本条件下的RGB-D显著性物体检测

    时间:2023-01-13 18:05:06来源:百花范文网本文已影响

    何静,傅可人,2*

    1.四川大学视觉合成图形图像技术国防重点学科实验室,成都 610065;
    2.四川大学计算机学院,成都 610065

    显著性物体检测(salient object detection, SOD)旨在定位图像或视频中最吸引人注意力的物体,并将其从背景中分离出来。显著性物体检测主要应用于计算机视觉任务中的预处理,如视频/图像分割、视觉追踪、视频/图像压缩等。在早期,显著性物体检测主要基于RGB图像进行检测,从输入的RGB图像中提取有用信息用于物体显著程度的估计。近年来,随着深度传感器的发展和普及,基于RGB-D(RGB-depth)的多模态显著性物体检测受到研究者们广泛的关注。

    现有的RGB-D SOD方法按监督方式可以分为全监督和自监督两种。全监督RGB-D SOD(Fu等,2020;
    Zhang等,2020)对输入的RGB图像以及相应的深度图通常采用早期融合、中期融合和后期融合的方式将两种不同模态的互补信息进行有效融合。自监督RGB-D SOD(Zhao等,2021)用少量无标记RGB-D数据集进行预训练,使网络捕获丰富的上下文语义信息,从而为下游任务提供有效初始化。

    目前大多数RGB-D SOD采用全监督的方式在一个较小的RGB-D SOD训练集上进行训练,然而,此方式的泛化性能局限于较少的训练样本,难以泛化到真实场景。因此,本文提出将RGB-D SOD视为小样本学习问题。受Wang等人(2021)综述的启发,本文应用两类小样本学习方法,第1类为基于模型解空间优化的方法,通过多任务训练以及参数共享的方式将训练样本数量较多的RGB SOD任务学习到的知识迁移至训练样本数量较少的RGB-D SOD任务,从模型角度约束特征解空间;
    第2类为基于训练样本扩充的方法,利用单图深度估计算法将额外的RGB图像生成相应的深度图,再将得到的RGB-D图像对用于训练样本扩充。通过对以上两类方法的结果进行对比分析,证明了引入小样本学习来提升RGB-D SOD性能的可行性和有效性。本文的主要贡献如下:

    1)提出将RGB-D SOD视为小样本学习问题,根据小样本学习方法的分类,从模型解空间优化角度和训练样本扩充角度研究如何从RGB SOD任务迁移额外的先验知识,以提高小样本条件下的RGB-D SOD的性能和泛化性。与之前方法不同,本文从“训练样本少”的角度出发,利用小样本学习方法进行显著性物体检测的研究工作。

    2)针对不同小样本学习方法,研究并实验了不同的显著性检测策略(包括典型的中期融合模型和后期融合模型),并在9个常用基准数据集上进行定量、定性的实验和分析,结果表明将RGB-D SOD视为小样本学习问题具有有效性和可行性。

    1.1 RGB-D显著性物体检测

    近年来,RGB-D SOD在性能上取得了质的飞跃。传统的RGB-D SOD主要采用提取的手工特征将RGB图像信息与深度图信息进行融合。Niu等人(2012)提出第1个传统的基于RGB-D的显著性物体检测,利用全局视差对比和立体规则进行显著性估计。传统的RGB-D SOD模型,往往通过深度线索探索有用的属性,如边界线索、区域对比度、深度对比度和形状属性等。其中,Peng等人(2014)采用多阶段的RGB-D算法将深度和外观线索结合用于显著性物体的分割。值得一提的是,他们构建了第1个大规模的RGB-D SOD基准数据集,即 NLPR。虽然传统的RGB-D SOD取得了不错的效果,但它们在复杂场景、低对比度和强光照等环境缺乏鲁棒性和泛化性。

    Qu等人(2017)首次提出基于卷积神经网络的RGB-D显著性物体检测,利用卷积神经网络有效地学习输入图像的低级特征和深度线索,并通过卷积神经网络整合以获得最终的显著性检测结果,开启了基于深度神经网络的RGB-D SOD新方向。为充分利用RGB图与深度图的互补信息,CTMF方法(Han等,2018)利用卷积神经网络(convolutional neural network, CNN)学习RGB图像和深度图中的高级表示,将模型结构从RGB图像转移到深度图。Zhao等人(2019)提出一种流体金字塔集成模块,通过分层的方式有效融合跨模态信息。MMCI(Chen等,2019)利用多尺度多路的融合方式捕获RGB图像与多层深度线索之间的相关性。UC-Net(Zhang等,2020)提出通过条件变分自编码器对人的注释不确定性进行建模以产生不同的显著性预测,最终通过投票机制预测准确的显著性图。JL-DCF(Fu等,2020)将深度图与RGB图像进行级联输入到共享卷积神经网络进行特征提取,并提出一种密集协作融合策略,有效地融合不同模态学习到的特征。D3Net(Fan等,2021)通过判断深度图是否应该与RGB图像串联作为输入信号,设计网络以减少低质量深度图引入的噪声,并构造了一个新的RGB-D SOD基准数据集(SIP)。

    由此可见,基于RGB-D的显著性物体检测在过去几年得到了快速发展,并获得较好的性能。但这些方法往往注重RGB与深度特征的有效融合(李贝 等,2021),如设计早期融合、中期融合、晚期融合和多尺度融合等策略。而本文关注RGB-D SOD的训练样本较少,导致网络泛化能力具有一定局限性的问题。因此提出将RGB-D SOD视为小样本学习问题,研究如何将RGB SOD任务学习到的知识迁移到RGB-D SOD任务,并基于JL-DCF模型(Fu等,2020)和DANet(dual attention network for scene segmentation)模型(Fu等,2019),探讨引入小样本学习方法后,对RGB-D SOD带来的性能提升。

    1.2 小样本学习

    小样本学习任务旨在解决如何在监督信息有限的样本条件下增强目标任务的学习,通常见于小样本分类问题(徐鹏帮 等,2021),即N-way-K-shot问题。与小样本分类任务不同,本文利用RGB SOD任务与RGB-D SOD任务间的共性,解决RGB-D SOD监督信息有限的问题,增强RGB-D SOD任务的特征学习和泛化性。

    目前,鲁棒的机器学习算法模型离不开大量的训练数据,但实际中训练样本的获取往往较难,小样本问题广泛存在于深度学习领域,因此近年来小样本学习方法成为热门方向,研究者们尝试探索小样本学习方法在不同领域的应用。小样本学习在特征识别(Finn等,2017;
    Munkhdalai和Yu,2017;
    Snell等,2017)和图像分类(Ravi和Larochelle,2017;
    Tsai等,2017;
    Wang和Hebert,2016)的应用较广,在Ominiglot和miniImageNet两个基准数据集均取得较高的准确率。在视频方向也有较多应用,如视频分类(Zhu和Yang,2018)、动作预测(Gui等,2018)、行人重识别(Wu等,2018)、目标分割(Caelles等,2017)等。尽管小样本学习方法应用于众多领域,但目前尚未有工作将小样本学习方法应用于显著性物体检测。与现有RGB-D SOD文献不同,本文发现并尝试解决RGB-D SOD的小样本问题。

    本文在Wang等人(2021)综述的启发下,探索小样本条件下的RGB-D SOD,研究两类不同的小样本学习方法在RGB-D SOD领域的综合性能表现,对基于两类小样本学习方法的RGB-D SOD进行对比分析。首先,从模型解空间优化角度,使RGB-D SOD任务和RGB SOD任务进行多任务学习共享权重参数,利用两个关联任务学习任务之间的共性,从模型角度约束参数,从而实现小样本条件下的RGB-D SOD。从训练样本扩充角度,使用现有的单目深度估计算法生成相应的深度图,即直接利用RGB SOD数据集中的先验知识对数据进行增强,从而扩充小样本条件下的RGB-D SOD有监督数据。

    RGB SOD与RGB-D SOD的多任务学习方法需为额外的RGB图像进行监督,因此选择中期融合模型与后期融合模型作为本文框架。原因有:1)早期融合将RGB图像与深度图像在通道维度进行级联输入网络,或者将RGB图像与深度图像的浅层表示合并后输入网络进行显著性预测,在输入阶段将RGB图像与深度图进行级联,因此不能分别对RGB图像和深度图进行监督;
    2)中期融合将RGB图像与深度图像分别输入相应的网络,通过双流网络的方式获得特征,再将特征融合后输入深度神经网络解码器进行显著性预测,可为网络添加额外的监督信号;
    3)后期融合则利用双流网络分别提取RGB图像特征以及深度图像特征,将提取的特征联合用于最终的显著性预测。因此,由于采用了双流网络结构,中期融合和后期融合均可作为两类小样本学习方法的基本框架。

    2.1 基于模型解空间优化

    从模型解空间优化角度,小样本学习方法可以通过增加先验知识限制模型假设空间,使经验风险最小化的结果更可靠,并且降低过拟合风险(Wang等,2021)。根据先验知识的利用方法,将基于模型的小样本学习方法分为多任务学习、嵌入学习和生成式模型(Wang等,2021)。采用多任务学习方法,将两个相似任务进行参数共享,从而将RGB SOD任务的知识迁移至RGB-D SOD模型中。

    考虑到从模型解空间优化角度进行多任务学习需要加入额外的监督信号,选择中期融合和后期融合模型对小样本RGB-D SOD进行探究。在中期融合模型中,Fu等人(2020)提出的JL-DCF是具有代表性的中期融合模型,同时,JL-DCF对RGB图像和深度图两种模态均有单独的监督;
    另外,JL-DCF共享了RGB分支和深度分支的权重,使额外的RGB图像信息更好地增强两种模态的学习。对于后期融合模型,参考Fu等人(2021)将DANet(Fu等,2019)构造为双流后期融合模型DANet†,用于多任务学习,框架图如图1所示。

    图1(a)表示基于中期融合的小样本条件下的RGB-D SOD,网络主干部分为JL-DCF模型。JL-DCF(Fu等,2020)通过孪生网络提取RGB图像与深度图像的特征,并提出密集协作融合策略有效地融合不同模态的特征。本文在编码模块对RGB-D SOD任务和RGB SOD任务进行参数共享,为引导网络更好地学习多任务特征,将特征编码器输出的粗略显著图进行监督从而优化编码模块以提高模块的泛化能力。解码器将RGB-D数据编码的各级特征与解码部分的各级特征进行跨模块融合,最后输出精确的显著预测图。其中,RGB-D SOD任务的训练数据远小于RGB SOD任务的训练数据。

    图1 将多任务学习用于基于中期融合和后期融合的RGB-D SOD模型(RGB*表示额外的RGB图像)

    图1(b)表示基于后期融合的小样本条件下的RGB-D SOD,网络主干部分为DANet模型。DANet(Fu等,2019)为基于RGB的语义分割模型,通过多尺度特征融合捕获上下文信息,同时采用双注意力网络以自适应地将局部特征与其全局依赖性相结合,分别对空间和通道维度的语义相互依赖性进行建模。本文参考Fu等人(2021)将语义分割模型DANet的分类预测头卷积层(1×1,C)(输出通道数C表示语义分割类别数)替换为(1×1,1)的预测卷积层以用于显著性物体检测。由于DANet为基于RGB的单流模型,因此将DANet修改为输入为RGB图像和深度图像的双流后期融合模型,即DANet†。对输入的RGB图像与深度图像进行编解码操作得到单通道激活特征图,再在输入Sigmoid函数前进行相加融合操作得到最终的显著性图。

    综上,基于中期融合和后期融合的多任务学习方法的总体损失分别表示为

    L1=L(Sr,G)+L(Sd,G)+L(Sr*,G*)+L(Sf,G)

    (1)

    L2=L(Sr*,G*)+L(Sf,G)

    (2)

    2.2 基于训练样本扩充

    当加入了额外的合成数据,数据集的分布将发生改变,即小部分为原始RGB-D数据,大部分则为合成数据,因此为了减小数据量对网络训练的影响,深度生成时,将合成数据的训练损失按数据比例进行加权,因此深度生成方法的损失函数为

    (3)

    3.1 数据集与评估指标

    为公平比较,在8个RGB-D SOD数据集以及1个RGB SOD数据集上进行实验,并对实验结果进行评价分析。RGB-D SOD数据集包括:NJU2K(1 985个样本)(Ju等,2014)、NLPR(1 000个样本)(Peng等,2014)、STERE(1 000个样本)(Niu等,2012)、RGBD135(135个样本)(Cheng等,2014)、LFSD(100个样本)(Li等,2017)、SIP(929个样本)(Fan等,2021)、DUT-RGBD(800个训练样本+400个测试样本)(Piao等,2019)、ReDWeb-S(2 179个训练样本+1 000个测试样本)(Liu等,2021)。DUTS(10 553个训练样本+5 019个测试样本)(Wang等,2017)为RGB SOD数据集。在本文中,RGB-D训练集由NJU2K的1 500个样本、NLPR的700个样本组成,额外的RGB训练数据由DUTS中10 553个样本组成。其余数据用于测试,值得一提的是,在DUT-RGBD和ReDWeb-S中,采用所有数据进行测试,即测试集分别包含1 200个和3 179个样本。

    3.2 实验细节

    本文方法的实现基于JL-DCF框架和DANet†框架。在基于JL-DCF的多任务学习实验中,将RGB-D数据与DUTS中的RGB数据同时输入编码器进行在线联合训练和优化。相似地,基于DANet†的多任务学习实验对两种不同来源的RGB数据同时进行联合训练和优化。JL-DCF框架和DANet†框架的主干网络均为ResNet-101,其中JL-DCF网络与DANet†网络输入图像的尺寸分别为320×320×3、480×480×3,最终输出图像分辨率分别为320×320像素、480×480像素,两个网络的输入均是将深度图通过简单的灰度映射转换为三通道图。

    3.3 实验结果对比与分析

    3.3.1 定量结果对比和分析

    为直观地说明将RGB-D SOD视为小样本学习问题的有效性和泛化性,训练了6个不同模型验证两种不同的小样本学习方法(即RGB SOD与RGB-D SOD的多任务学习,以及训练样本深度生成)对RGB-D SOD的性能提升。如表1所示,其中W/o FSL表示原始Pytorch版本的模型性能(未采用小样本学习方法),Multi-task表示RGB SOD与RGB-D SOD多任务学习优化的方法,DS-DPT、DS-MD分别表示基于DPT和MegaDepth的深度生成的训练样本扩充。值得一提的是,表1中DUTS为RGB SOD数据集,因此在测试时通过DPT和MegaDepth两种方法生成深度图,分别表示为DUTS(DPT)、DUTS(MD)。

    表1 在9个数据集上的定量分析

    从表1可得:

    1)由JL-DCF与DANet†的结果可得,将RGB-D SOD视为小样本学习问题并引入小样本学习方法可提高模型性能。例如,对于JL-DCF模型,多任务学习方法(multi-task)在SIP和DUT-RGBD数据集性能表现总体最好,Sα的提升分别为2.1%、2.4%;
    对于DANet†模型,基于DPT的深度生成方法(DS-DPT)在SIP和DUT-RGBD数据集上,Sα的提升分别为1.8%、3.9%。

    2)在JL-DCF结果中,多任务学习方法(multi-task)的性能表现最佳,相比于未引入小样本学习(W/o FSL)的性能总体提升最高,这源于JL-DCF模型通过参数共享的方式将RGB SOD任务的知识迁移至RGB-D SOD任务,此方式更有利于显著性物体检测任务的特征学习。

    3)在DANet†结果中,基于DPT的深度生成(DS-DPT)性能总体提升最高,且高于多任务学习(multi-task)。原因在于采用DPT方法合成的高质量深度图进行网络训练,使基于DPT的深度生成方法(DS-DPT)性能提升最高。另一方面,DANet†通过双流网络分别学习RGB图像与深度图像的特征,并以后期融合的方式融合两支路(RGB分支、深度图分支)的特征,在特征学习阶段额外的RGB图像信息仅有利于RGB分支的学习,而深度分支未能利用额外的RGB图像信息,因此多任务学习方法性能表现稍差。

    4)分析JL-DCF和DANet†数据中DS-DPT与DS-MD的性能表现,结果显示两类模型中DS-DPT的总体性能均要优于DS-MD,可得出深度生成的质量对结果有一定的影响,即深度生成算法效果越好,引入额外的RGB图像知识所带来的性能提升越大。

    5)JL-DCF的整体性能优于DANet†,因此小样本条件下的RGB-D显著性物体检测依赖于模型的选择。与UCNet(Zhang等,2020)、SSRNet(Zhao等,2020)两种现有前沿方法进行对比,引入小样本学习方法后可获得优于SOTA(state-of-the-art)的性能。同时,在DUT-RGBD、ReDWeb-S两个全数据集上的测试结果证明了在RGB-D SOD模型引入小样本学习方法的泛化性。

    为直观表现采用小样本学习方法对JL-DCF与DANet†模型的性能提升,对表1中数据进行统计归纳,得出将RGB-D SOD视为小样本学习问题后,多任务学习以及深度生成方法在8个通用数据集的性能提升(仅计算NJU2K、NLPR、STERE、RGBD135、LFSD、SIP、DUT-RGBD、ReDWeb-S数据集上的指标提升平均值),如表2所示,在JL-DCF模型中,多任务学习方法具有突出的性能表现,在DANet†模型中,基于DPT方法的深度生成性能提升较为突出,如前所述,此结果与基础模型的结构相关。另外,JL-DCF模型引入小样本学习方法的性能提升要小于DANet†模型引入小样本学习方法的提升,原因为原始JL-DCF性能表现已较好,而DANet†模型性能稍差,说明小样本学习方法对模型带来的性能提升一定程度上取决于模型自身的基础性能。表2再次证明了将RGB-D SOD视为小样本学习问题的可行性和有效性。

    表2 小样本学习方法的平均性能提升

    表3展示了将模型用于DUTS数据集的性能提升,DUTS(DPT)、DUTS(MD)分别表示采用DPT方法和MegaDepth方法生成DUTS数据集的深度图用于测试。在JL-DCF模型中,采用DPT方法生成深度图训练的模型在DPT方法生成深度图的测试集上性能表现最佳,采用MegaDepth方法生成深度图训练的模型在MegaDepth方法生成深度图的测试集上性能表现最佳。对于DANet†模型,DPT方法生成深度图训练的模型(即DS-DPT)在DUTS(DPT)与DUTS(MD)数据集上性能表现最佳,原因在于DANet†为后期融合模型,对RGB-D图像对的语义信息的利用较差,因此深度图的质量对此双流网络的影响较大,印证了基于训练样本扩充的小样本学习方法的性能依赖于深度生成算法的性能。另外,由于额外的RGB图像仅有利于RGB分支学习特征,而没有学习生成的深度图信息,因此多任务学习(即multi-task)性能差于深度生成方法。总之,采用不同深度生成方法训练的模型能够在不同的测试集(DUTS(DPT)、DUTS(MD))取得较优的性能提升(Sα最低提升2.9%),证明引入小样本学习方法可提高模型的泛化性。

    表3 DUTS数据集上小样本学习方法的性能提升

    为验证引入小样本学习对RGB-D SOD在训练样本数量极少时的优越性,本文将RGB-D SOD训练样本数按1/4进行指数式减少(即从2 200依次减少为550、138、35个RGB-D训练样本),而额外的RGB SOD训练样本数量则保持不变,以使RGB SOD数据量远大于RGB-D SOD数据量。本文选择基于JL-DCF的多任务学习方法进行验证。如表4所示,其中Δ1、Δ2、Δ3、Δ4分别表示样本数量为2 200、550、138、35时,多任务学习方法在9个数据集上的平均提升(基准模型W/o FSL也使用减少的样本进行了重新训练)。由表4给出的实验结果可知,当RGB-D SOD训练样本数为2 200和550时,引入小样本学习方法对该任务的性能提升相当,但随着样本数量的指数减少,多任务学习方法的性能提升越发显著。

    表4 指数减少RGB-D数据量时多任务学习方法的平均性能提升

    3.3.2 定性结果对比和分析

    由图2可得,小样本条件下的显著性物体检测准确率更高。同时,对于背景较复杂的图像也可以准确地检测出显著性物体。本文方法在DANet†模型与JL-DCF模型上均能明显提高检测准确率。由此证明了小样本条件下的RGB-D SOD的可行性,表现为所得到的显著性物体更加完整,置信度也更高。

    图2 定性比较

    3.3.3 参数α的敏感性分析

    为分析基于训练样本扩充方法式(3)中权重系数的取值影响,设置α值分别为0、0.21、1、5在JL-DCF模型上进行实验,在NJU2K、NLPR、STERE、RGBD135、LFSD、SIP、DUT-RGBD、ReDWeb-S数据集上的各项平均指标如图3所示。值得一提的是,α=0即表示不采用合成训练数据的原始性能(对应表1中JL-DCF栏的W/o FSL);α=1意味着对所有训练样本同等对待,而α=5表示增加了合成数据的训练权重。从图3可见,当α=0.21时,网络取得的性能最好。随着α取值的增大,即扩大合成数据集对网络前向传播的影响,意味着网络逐渐偏向学习合成的深度信息,因此导致在真实的RGB-D数据上性能有所下降。上述实验表明,在训练样本扩充时控制好合成数据的权重更有益于模型性能的提升,也证明了本文对α取值的有效性。

    图3 在8个数据集上对参数α的不同取值(0、0.21、1、5)进行敏感性分析

    3.3.4 其他讨论

    基于以上对实验结果的定量、定性分析,可证明将RGB-D SOD视为小样本学习问题的可行性和有效性,但这两类小样本学习方法存在各自的优缺点。在适用性方面,多任务学习方法局限于模型的结构,仅可应用于中期融合模型与后期融合模型,如本文第2节所述,早期融合模型无法为网络加入额外的监督信号;
    而深度生成方法简单直接,理论上可应用于所有模型。另外,对于训练复杂度,深度生成方法受大量训练数据的影响,训练时间较长;
    而多任务学习方法训练时间较短,训练代价较低。此外,基于深度生成方法的小样本RGB-D SOD性能一定程度上依赖于深度生成算法的精度,低质量的深度图易给网络引入噪声,从而影响最终的训练结果。

    针对RGB-D SOD训练数据集较小的问题,本文从小样本学习角度探讨RGB-D SOD。鉴于RGB SOD任务与RGB-D SOD任务的相似性以及数据的可用性,利用小样本学习方法将RGB SOD任务的知识迁移到RGB-D SOD任务,从模型解空间优化和训练样本扩充对小样本条件下的RGB-D SOD进行研究。模型解空间优化将RGB SOD与RGB-D SOD进行多任务学习共享参数,通过引入RGB SOD任务的知识,使网络学习更具泛化性的特征。训练样本扩充利用单目深度生成算法生成相应的深度图,以实现RGB-D SOD训练数据集的增广。本文进行了大量实验,从不同角度证明小样本条件下的RGB-D SOD的有效性和可行性。总之,面向小样本条件下的RGB-D SOD的研究是一项重要任务,目前仅从模型解空间优化角度和训练样本扩充角度对小样本条件下的RGB-D SOD方法进行研究,未来将探索并应用更多小样本学习方法以提升RGB-D显著性物体检测,乃至其他显著性检测任务的性能。

    猜你喜欢 多任务显著性样本 数字时代的注意困境:媒体多任务的视角*应用心理学(2022年5期)2022-11-05一种结合多尺度特征融合与像素损失加权的显著性目标检测方法黑龙江大学自然科学学报(2022年1期)2022-03-29结合自监督学习的多任务文本语义匹配方法北京大学学报(自然科学版)(2022年1期)2022-02-21视频序列中视觉显著性图像区域自动提取仿真计算机仿真(2021年7期)2021-11-17面向多任务的无人系统通信及控制系统设计与实现现代信息科技(2021年21期)2021-05-07欧盟法院判决明确欧盟商标通过使用获得显著性的地域认定标准中国知识产权(2018年12期)2018-12-29规划·样本领导决策信息(2018年16期)2018-09-27人大专题询问之“方城样本”人大建设(2017年10期)2018-01-23商标显著性的司法判断(一)中国知识产权(2017年5期)2017-05-25随机微分方程的样本Lyapunov二次型估计数学学习与研究(2017年3期)2017-03-09

    相关热词搜索:条件下 样本 物体

    • 范文大全
    • 说说大全
    • 学习资料
    • 语录
    • 生肖
    • 解梦
    • 十二星座