网站首页 公文大全 个人文档 实用范文 讲话致辞 实用工具 心得体会 哲学范文 总结范文 范文大全 报告 合同 文书 信函 实用
  • 汇报体会
  • 节日庆典
  • 礼仪
  • 毕业论文
  • 评语寄语
  • 导游词
  • 口号大全
  • 其他范文
  • 百花范文网 > 实用范文 > 其他范文 > 面向多模态自监督特征融合的音视频对抗对比学习

    面向多模态自监督特征融合的音视频对抗对比学习

    时间:2023-03-26 09:10:02来源:百花范文网本文已影响

    盛振涛,陈雁翔*,齐国君

    1.合肥工业大学计算机与信息学院,合肥 230601;
    2.智能互联系统安徽省实验室(合肥工业大学), 合肥 230601;
    3.机器感知与学习实验室(美国中佛罗里达大学), 美国奥兰多 32816

    在自然界中,音频和视觉事件往往同时发生:当说话时,嘴唇会同时动作;
    当飞机低空掠过时,飞机会同时发出噪声;
    当切菜时,刀与案板碰撞会发出声音。由于自然界中音视频信息具有时间同步性,因此人类在感知自然界的过程中,听觉系统和视觉系统往往协同工作来采集音视频信息,然后由大脑中枢系统融合处理音视频信息,最终人类形成了对外界的认知。在感知研究中,已有大量文献(Shams 和 Kim,2010;Heffner 和 Heffner,1992;Risto,1992)提供了实验证据,表明人在理解动态事件时不仅依靠视觉系统,还需要听觉系统的辅助,如果一个人的听觉功能受到影响,那么他对视觉事件的敏感度会降低(Myklebust,1960)。因此,相比于单从听觉事件或者视觉事件中提取到的特征,从音视频事件中可以提取到的特征包含更加丰富的信息。

    对比学习是一种自监督表示学习,它使用对比损失(van den Oord 等,2018)衡量表示空间中样本对之间的相似性。在计算机视觉领域,传统的对比学习通过衡量样本之间的互信息(Hénaff,2020;
    Hadsell等,2016;
    Hjelm等,2019;
    Zhuang等,2019;
    van den Oord等,2018)来学习数据特征。Chen等人(2020)将对比学习应用到计算机视觉领域,提出可以对图像进行增强编码,让同一幅图的不同增强视图相互靠近,不同图像的增强视图相互远离。对比学习需要从负样本空间中抽取负样本,如何构建负样本空间是一个关键的问题。为了良好地对比学习质量,构建负样本空间的原则是足够大且具有连续性(He 等,2020)。在计算机视觉领域,许多工作(Hu 等,2021;He 等,2020;Li 等,2021;Ho 和 Vasconcelos,2020;Kalantidis 等,2020)专注于视觉负样本空间的构造。Wu 等人(2018)提出可以维护一个包含所有训练样本的存储库;
    He 等人(2020)提出可以构建一个带有队列和移动平均编码器的动态负样本字典,既保证了负样本空间规模性和连续性,又减少了内存占用;
    Li 等人(2021)、Kalantidis 等人(2020)提出可以通过聚类等手段寻找更加有效的负样本,增强负样本空间的有效性;
    Hu 等人(2021)、Ho 和 Vasconcelos(2020)提出引入对抗性负样本的想法,可以有效地使负样本空间覆盖到具有挑战性的训练样本,提高对比学习质量。但是上述工作提出的对负样本空间的改进措施都聚焦于视觉单一模态,没有考虑到对比学习在音视频多模态领域的应用。相比于上述单一视觉模态下的对比学习,音视频跨模态对比学习可以使用不同的音视频视图进行对比学习,从而学习到信息更加丰富的音视频信息(Morgado 等,2021b;Owens 和 Efros,2018)。

    本文针对音视频多模态下的对比空间负样本空间的构建问题,提出了面向多模态自监督特征融合的音视频对抗对比学习方法,如图1所示。在图1左侧,首先将视觉片段和音频片段进行增强编码,分别得到视觉特征向量和听觉特征向量。对同一片段再次进行增强编码,可以得到对应的正样本。在图1中间部分,展示了音视频跨模态对抗对比学习的训练流程。

    首先,如图1中间左侧下方所示,使用标准正态分布来生成视觉和听觉对抗性负样本集合,从而构建了音视频负样本空间。定义视觉和听觉对抗性负样本数量均为65 536,确保了音视频负样本空间的规模性。其次,在图1中间的上半部分表示了音视频模态间的对抗对比学习,以左上的视觉特征向量为例,将其和对应的同一音频片段的在不同增强视图下的听觉特征向量作为正样本对(图1中间的左上方的相对箭头两侧),而听觉对抗性负样本构成了负样本空间。在模态间对比学习的过程中,视觉特征向量要靠近听觉正样本,同时远离听觉对抗性负样本。然后,听觉对抗性负样本进行模态间对抗更新,使得自身更加接近视觉特征向量,增加对比学习的难度。以听觉特征向量为核心的模态间对抗对比学习流程也是如此。

    与此同时,如果仅有图1中间的上半部分的音视频模态间对抗对比学习,那么实际上模型就退化为了单一模态的对抗对比学习,这是因为视觉和听觉对抗性负样本初始化时为标准正态分布,不包含任何自身模态的信息。为此,如图1中间的下半部分,增加了音视频模态内的对抗对比学习。以图1右下的视觉特征向量为例,将其和对应的同一视觉片段的在不同增强视图下的视觉特征向量作为正样本对,而视觉对抗性负样本构成了负样本空间。在模态内对比学习的过程中,视觉特征向量靠近视觉正样本,同时远离视觉对抗性负样本。接着,视觉对抗性负样本进行对抗更新,使得自身更加接近视觉特征向量,增加对比学习的难度。图1左下听觉特征向量对应的模态内对抗对比学习流程也是如此。

    最终,视觉和听觉特征向量既包含了模态间信息,也包含了自身模态的信息。其融合了视听觉信息,可以更好地指导图1右侧的下游任务,提升准确率。1.2节的数学推导证明了对抗性负样本可以不断地跟踪音视频训练样本中难以区分的样本,从而提高对比学习质量。

    图1 面向多模态自监督特征融合的音视频对抗对比学习方法方法示意图

    本文定义了一个视听觉对抗性负样本集合,以此来代替原有的视觉对抗性负样本集合和听觉对抗性负样本集合。这一改进简化了框架,降低了框架的复杂度,1.3节的数学推导和2.3.1节的消融实验证明了这一简化措施的等价性和有效性。

    音视频多模态自监督学习的目的是通过预训练得到融合音视频信息的特征表示,其通过微调可以迁移到不同下游任务上。对于提出的面向多模态自监督特征融合的音视频对抗对比学习方法,选取Kinetics-400(Kay 等,2017)数据集进行预训练,选取动作识别和音频分类下游任务,分别评估了训练得到的包含听觉信息的视觉特征表示和包含视觉信息的听觉特征表示。实验从定性和定量的角度表明,该方法可以很好地融合音视频特征,在动作识别和音频分类下游任务上与其他音视频跨模态自监督学习方法相比取得了具有竞争性的结果。

    综上所述,本文的贡献在于:

    1)提出了面向多模态自监督特征融合的音视频对抗对比学习方法,创新性地引入了视觉、听觉对抗性负样本集合来构建音视频负样本空间;

    2)构建了音视频模态间与模态内对抗对比的联合学习模式,并证明了视觉和听觉对抗性负样本可以有效跟踪训练样本中难以区分的样本,从而提高了音视频特征融合质量;

    3)进一步提出了音视频对抗对比学习简化框架,在减少一半视听觉对抗性负样本的同时保证了本文方法的精度。

    面向多模态自监督特征融合的音视频对抗对比学习方法引入了视觉和听觉对抗性负样本,从而构建了一个更加高效的音视频跨模态负样本空间,增强了音视频跨模态对比学习的学习质量。

    1.1 音视频对抗对比学习框架

    图2 音视频对抗对比学习框架

    本文采用了经典的InfoNCE对比损失函数(van den Oord 等,2018),具体为

    LInfoNCE(X,X′,R)=

    (1)

    综上所述,一方面,通过音视频编码器将视觉片段和音频片段投影到特征空间,得到视觉正样本对和听觉正样本对;
    另一方面,定义视觉对抗性负样本集合和听觉对抗性负样本集合。由于集合中的每个对抗性负样本都是可梯度更新的,相当于在每个对抗性负样本后都添加了全连接层。初始状态下,全连接层的可梯度更新的参数矩阵为单位矩阵(矩阵行宽和列宽均为向量长度)。基于音视频正样本对和视听觉对抗性负样本集合,计算得到模态间与模态内对比损失函数。

    因为视觉对抗性负样本集合Rv和听觉对抗性负样本集合Ra初始化为正态分布,所以其本身不包含音视频信息。如果仅仅定义模态内损失函数或模态间损失函数,那么就仅能学习到对应模态的特征,而无法学习到音视频跨模态特征,从而退化为单一模态下的对抗对比学习。因此,定义了联合对比损失函数LJoint,具体为

    LJoint=LCross+LIn

    (2)

    LCross=LInfoNCE(Xv,X′a,Ra)+

    LInfoNCE(Xa,X′v,Rv)

    (3)

    LIn=LInfoNCE(Xv,X′v,Rv)+

    LInfoNCE(Xa,X′a,Ra)

    (4)

    式中,LIn为音视频模态内的对比损失函数,LCross为音视频模态间的对比损失函数。这一联合损失的形式与图2右侧一致。在图2中,对比损失函数LInfoNCE(Xv,X′a,Ra)简写为Lossva,其他3个损失函数亦然。在1.2节中,证明了通过对抗对比学习优化联合对比损失函数LJoint(式(2)),视觉对抗性负样本集合Rv和听觉对抗性负样本集合Ra不仅跟踪了模态内难以区分的特征样本,同时也跟踪了模态间的难以区分的特征样本。

    1.2 音视频对抗对比学习梯度分析

    根据定义的联合对比损失函数LJoint(式(2))可以看到,存在着两个可训练的主体:音视频查询编码器fvq和faq以及视觉和听觉对抗性负样本集合Rv和Ra。不仅沿着联合对比损失函数LJoint最小化方向更新音视频查询编码器fvq的参数θv和faq的参数θa,还沿着联合对比损失函数LJoint最大化方向更新视觉和听觉对抗性负样本集合Rv和Ra。因此,联合对比损失函数LJoint的优化问题变成了一个最大最小化问题,即

    (5)

    (6)

    (7)

    (8)

    (9)

    (10)

    1.3 音视频对抗对比学习框架的简化

    (11)

    (12)

    为了评估性能,首先进行预训练,然后在动作识别和音频分类下游任务上进行迁移学习,最后分别进行定性和定量评估。音视频对应和音视频实例判别是音视频跨模态自监督学习领域具有代表性的方法,分别与它们进行实验对比。对抗对比学习(adversarial contrast,AdCo)是一种视觉模态下的自监督表示学习方法。将其作为比较方法,体现音视频特征融合的有效性。音视频对应(audio visual corresponding,AVC)是一个二元分类任务:给定一个视觉片段和一个音频片段,判断它们是否对应,其中正对来源于同一个视频,负对来源于不同视频。音视频实例判别学习则采用对比学习,将一个视觉片段与多个音频片段进行对比,同时将一个音频片段与多个视觉片段进行对比。其中正对来源于视频中时间同步对应的音视频片段,负样本既可能来源于同一视频的不同时间点的片段,也有可能来源于不同视频的片段。因此,音视频实例判别中包含了音视频对应和音视频时间同步这两个隐含约束条件。音视频实例判别学习存在3种变体,分别是模态间实例判别学习(self-audio visual instance discrimination)、联合模态实例判别学习(joint-audio visual instance discrimination)和跨模态音视频实例判别学习(cross-audio visual instance discrimination,Cross-AVID)。经过实验验证,跨模态音视频实例判别学习在3种变体中达到了最优效果(Morgado 等,2021b),因此本文采用跨模态音视频实例判别学习(Cross-AVID)作为比较方法。为了公平比较,采用与本文方法相同的架构和优化设置重新实施上述方法。

    2.1 实验设置

    2.1.1 数据集选取

    采用Kinetics-400K(Kay 等,2017)的子集Kinetics-100K(Morgado 等,2021b)进行音视频对抗对比学习预训练。Kinetics-400数据集包括了240 K的持续时间大约为10 s的视频,涵盖了400类人类动作,例如演奏乐器、握手或者拥抱等。在预训练时,仅使用自监督学习方法提取Kinetics-400数据集中的音视频信息,而不使用标签信息。

    针对下游动作识别任务,选取了UCF-101数据集(Soomro 等,2012)和HMDB-51(human metabolome database)数据集。UCF-101数据集包含了13 320个视频,涵盖了101类真实动作,具有动作多样性。UCF-101的视频在相机运动幅度、物体外观和姿态、物体尺度、视角、背景和光照条件上都存在较大变化,非常具有挑战性。HMDB数据集(Kuehne等,2011)包含6 849个剪辑,分为51个动作类别,每个类别至少包含101个剪辑。动作类别可以分为5种类型:面部表情动作、与对象操纵相关的嘴部动作、肢体运动、与环境交互的肢体动作以及与人类交互的肢体动作。可以看到,HMDB51数据集类别之间的相似性高,非常具有挑战性。本文选取了HMDB-51数据集中的20类动作进行下游动作识别任务。针对下游音频分类任务,采用了ESC50(environmental sound classification)数据集(Piczak,2015)。ESC50数据集包含有2 000个环境录音,每段录音长度为5 s,分为50个类别,可以作为环境声音分类的基准测试方法。本文选取了ESC50数据集中的25类用做基准。

    2.1.2 视觉特征与听觉特征的预处理

    在视觉处理上,以16 帧/s的帧率随机选取一段时长为0.5 s的视觉片段,其中包含了8个连续的视频帧。然后对选取的视觉片段进行标准的视觉增强操作(Szegedy 等,2015),包括随机裁剪、随机水平翻转和色彩调节。经过视觉增强操作,得到8×224×224的视觉增强视图对,将其送入到视觉编码器组中。在音频处理上,以24 KHz的音频采样频率选取了与视觉片段对应的时长为2 s的音频片段。同样地,对音频片段进行增强操作,包括随机调整音量、时间抖动,并且接着进行了短时傅里叶变换,得到了200×257(200个时间步长,257个频率点)的音频增强视图对,将其送入音频编码器组中。

    2.1.3 音视频网络架构和优化设置

    对于视觉模态,选取了2层标准3D卷积神经网络,并在其后添加了3层MLP(multilayer perceptron)层,以此作为视觉编码器架构。对于听觉模态,选取了2层标准2D卷积神经网络,同样在其后添加了3层MLP层,以此作为音频编码器架构。具体架构如表1所示。

    表1 音视频网络架构

    在表1中,Xs表示视觉片段中每一帧的空间尺寸,Xn表示视觉片段的帧数,Cv表示视觉片段的通道数,Xf表示音频片段的频率采样点数,Xt表示音频片段的时间采样点数,Ca表示音频片段的通道数。对于视觉片段,采用RGB格式,因此视觉片段的初始通道数为3。对于音频片段,采用单通道,因此音频片段的初始通道数为1。视觉与听觉对抗性负样本集合大小均设置为65 536。

    Adam优化器学习率分别设置为0.011和1.1来优化音视频编码器网络和视听觉对抗性负样本集合。优化器权重衰减值均设置为0.000 01,动量值均设置为0.9。批处理大小设置为96,训练总批次设置为30。训练过程使用了2块TITAN Xp型号的GPU。在训练过程中,对于同一个批次,首先沿对比损失减小的梯度方向来更新音视频编码器网络,然后沿对比损失增大的梯度方向来更新视觉和听觉对抗性负样本集合。

    2.2 定性评估

    2.2.1 预训练效果的定性评估

    对本文方法的预训练效果进行定性评估。将视觉编码器组的视觉查询编码器作为前端,并在其后加上了1层全连接层和1层softmax层来映射至101类,以此作为下游动作识别的监督网络。遵循之前的工作(Korbar 等,2018;Tian 等,2020;Han 等,2019)在UCF-101数据集上的评估协议,网络重新整体微调训练来进行迁移学习。与此同时,将视觉查询编码器未经预训练的监督网络和视觉查询编码器经过Cross-AVID预训练后的监督网络设置为对照网络。

    预训练参数在2.1节已经详细说明,为了进行下游迁移学习,还需要进行下游监督网络的优化设置。仍旧使用Adam优化器来优化网络。为了与预训练参数保持合理的相对关系,优化器的学习率设置为0.000 1,动量设置为0.9,批处理大小设置为64,总训练批次设置为13。

    在经过上游预训练(可选)和下游迁移学习后,通过对101维标签中实际类别指向的标签误差进行反向传播,提取监督网络最后一层卷积层的梯度,然后将梯度可视化,并与原始图像相叠加,最终可得监督网络最后一层卷积层的梯度类激活热力图(gradient-class activation map,Grad-CAM),如图3所示。由于监督网络最后一层卷积层的尺寸为112×112,因此给出的梯度类激活热力图的细粒度较大。另外,由于图像经过了数据增强操作,与原始图像相比,梯度类别激活热力图会随机水平翻转或者随机局部放大。

    图3 梯度类激活热力图对比

    图3从左到右原始图像的真实动作标签分别为:棒球投掷、弹奏西塔琴、弹奏多尔鼓和乒乓球击球。对于Grad-CAM来说,越明亮的地方表明其梯度值越大,对于类别的贡献越大。图3第1列,相比于视觉查询编码器未经预训练和视觉查询编码器经过Cross-AVID预训练后的监督网络,视觉查询编码器经过本文方法预训练后的监督网络更多地关注了棒球手的全身投掷准备动作,这些都是高层语义信息,是区分动作的重要信息源。第2列视觉查询编码器经过本文方法预训练后的监督网络更多地关注了弹琴者的弹琴动作,而不是像Cross-AVID只是关注了一些边缘轮廓信息。第3列视觉查询编码器经过本文方法预训练后的监督网络更多地关注了击鼓者的击鼓动作。第4列视觉查询编码器经过本文方法预训练后的监督网络更多地关注了乒乓球运动员的击球动作。图3表明,经过本文方法预训练后,下游动作识别任务的监督网络更多地关注了高层语义信息。

    2.2.2 视觉和听觉对抗性负样本质量的定性评估

    在1.2节的音视频对抗对比学习梯度分析中,证明了视觉和听觉对抗性负样本可以跟踪难以区分的视听觉样本。本节通过可视化音视频对抗对比学习的音视频查询样本与视觉和听觉对抗性负样本的t-SNE(t-distributed stochastic neighbor embedding)图,定性分析了视觉和听觉对抗性负样本的质量。由于本文方法既有音视频模态间对抗对比学习,又有音视频模态内对抗对比学习,因此,将音视频查询样本与视觉和听觉对抗性负样本(在图4(a)中简记为音视频对抗样本)组合在一起,绘制其t-SNE图,如图4(a)所示。

    将跨模态音视频实例判别(Cross-AVID)设置为对照方法。由于跨模态音视频实例判别仅仅使用了模态间对比学习,因此将视觉查询样本和从音频存储库中采样的负样本组合在一起,绘制其t-SNE图,如图4(b)所示;
    将视觉查询向量和从音频存储库中采样的负样本组合在一起,绘制其t-SNE图,如图4(c)所示。

    图4 音视频对抗对比学习的t-SNE图与跨模态音视频实例判别的t-SNE图对比

    将图4(a)(b)进行比较,可以发现本文方法获得的视觉对抗性负样本的分布更加均匀,呈椭圆状分布,而在Cross-AVID中,从音频存储库采样的负样本的分布却存在着小集群,即图4(b)中红框所标区域。与图4(c)进行比较,可以发现在Cross-AVID中,从视觉存储库采样的负样本分布不均匀,即图4(c)中红框标注区域缺失了负样本。

    图4(b)(c)中存在的小集群以及缺失会使得Cross-AVID方法的负样本空间无法很好地覆盖到音视频查询样本。这会导致音视频查询样本与负样本很容易被区分。而通过本文方法获得的视觉和听觉对抗性负样本分布(图4(a))呈椭圆形,较好覆盖到音视频查询样本。因此音视频查询样本与对抗性负样本不容易区分,有利于提高对比学习的质量。也就是说,视觉与听觉对抗性负样本在迭代过程中密切跟踪了视听觉样本,构建了一个更加高效的音视频负样本空间。

    2.3 定量评估

    将本文方法与音视频对应(AVC)和跨模态音视频实例判别(Cross-AVID)这两种音视频自监督学习方法进行比较。此外,设置了对抗对比学习(AdCo)作为视觉单模态的对照组。在相同的架构下,相比于视觉表示对比学习(SimCLR)、动量对比学习(MoCO v2)和基于聚类对比的对比学习SWAV(swapping assignments between views)等视觉自监督学习方法,AdCo在ImageNet数据集上的TOP1准确率更高(Hu 等,2021)。本文还对1.3节中提出的简化(表2中最后一行)进行了消融实验。

    2.3.1 动作识别任务

    表2比较了各种音视频自监督表征学习方法预训练的迁移效果。在相同实验设置下,基于视觉单模态的自监督表征学习方法AdCo在各项指标上均低于基于音视频多模态的自监督表征学习方法(AVC、Cross-AVID、本文),这说明基于音视频多模态的方法学习到了更加高质量的信息(Huang 等,2021),因此在下游迁移任务上的效果也更好。比较3种基于音视频多模态的自监督表征学习方法,本文方法在视觉片段级别的TOP1和TOP5准确率以及视频级别的TOP1和TOP5准确率上均达到了最优效果。与跨模态音视频实例判别(Cross-AVID)方法相比,视觉片段级别的TOP1准确率高出了0.47%,视觉片段级别的TOP5准确率高出了2.06%;
    视频级别的TOP1准确率高出了0.35%,视频级别的TOP5准确率高出3.17%。音视频对应(AVC)方法除了在视频级别的TOP5准确率上比跨模态音视频实例判别(Cross-AVID)方法高0.68%以外,其他指标均低,这是由于跨模态音视频实例判别(Cross-AVID)学习还包含了同一视频的不同时间点的负样本片段,因此隐含有音视频时间同步这一约束条件,是一个更为困难的对比学习任务,可以学习到更优质的特征表示。而本文方法由于构建了更加高效的负样本空间,因此学习到的特征表示包含了更加丰富的音视频信息,在下游任务上的迁移效果更好。与无预训练直接进行动作识别的方法相比,3种音视频多模态自监督表征学习方法在各项指标上均有提升,这说明了其有效性。与此同时,虽然AdCo在ImageNet的TOP1准确率上效果优于SimCLR、MoCO v2和SWAV等视觉自监督学习方法(Hu 等,2021),但是AdCo在动作识别UCF数据集上准确率指标值却均低于未经预训练的方法的指标值,这可能是因为AdCo采用了与3种音视频多模态自监督表征学习方法相同的实验设置,而它需要更多的训练批次。

    表2 动作识别任务准确率(UCF)

    此外,在HMDB动作识别数据集上进行了测试。将预训练得到的视觉编码器组的视觉查询编码器作为前端,下游网络设置了3层全连接层和1层softmax层来映射至20类,采用Adam优化器来优化网络,学习率设置为0.000 1,动量设置为0.9,批处理大小设置为64,训练批次设置为8。由于类别数为20,TOP5准确率意义不大,因此表3中给出视觉片段级别和视频级别的TOP1准确率。

    表3 动作识别任务准确率(HMDB)

    通过表3可以看到,在相同的实验条件下,本文方法在HMDB动作识别数据集上达到了最优效果。相比于Cross-AVID方法,本文方法在视觉片段级别的TOP1准确率和视频级别的TOP1准确率上分别高了0.89%和0.83%。AdCo的视觉片段级别和视频级别的TOP1准确率比无预训练的准确率分别高了2.3%和2.48%,这可能是因为对动作识别HMDB数据集来说,AdCo的预训练是充分的。

    表2和表3的最后两行分别在UCF和HMDB动作识别数据集上进行了改进措施的消融实验。比较表2最后两行的数据,在UCF动作识别数据集上,对比本文方法在简化前和简化后的表现,视觉片段级别和视频级别的TOP1准确率相差不超过0.25%,视觉片段级别和视频级别的TOP5准确率相差不超过0.5%。比较表3最后两行的数据,在HMDB动作识别数据集上,对比本文方法在简化前和简化后的表现,视觉片段级别的TOP1准确率差值超过0.5%。这可能是由于HMDB数据集的动作幅度大,导致视觉片段级别的准确率波动大。视频级别准确率通过对视觉片段的预测值取平均后得出。可以看到,视频级别的TOP1准确率相差不超过0.25%。在这两个数据集上的消融实验结果说明了简化对抗性负样本这一措施在减少了一半对抗性负样本的同时保证了精度。

    2.3.2 音频分类任务

    在环境声音ESC数据集上,对本文方法得到的包含视觉信息的听觉特征进行评估。具体来说,将预训练得到的音频编码器组的音频查询编码器作为前端,下游网络设置了3层全连接层和1层softmax层,映射至25类。采用了Adam优化器对网络进行优化,学习率设置为0.000 1,动量设置为0.9,批处理大小设置为64,训练批次设置为8。由于AdCo是纯视觉预训练方法,因此本文选用了音视频对应AVC方法和跨模态音视频实例判别学习Cross-AVID方法作为音频分类任务的对照组。

    在表4中报告了音频片段级别和音频级别的TOP1准确率。通过对同一音频的10个音频片段的预测值(预测为各个类别的值,大小为0到1之间)求平均,计算得到音频级别的TOP1准确率。

    表4 音频分类任务准确率(ESC)

    通过表4可以看到,本文方法效果优于无预训练的方法。这证明了本文方法的有效性。相比于各类音视频自监督表示学习方法,本文提出的方法达到了最优效果。具体来说,相比于跨模态音视频实例判别学习Cross-AVID,在音频片段级别的TOP1准确率上高出了1.56%,在音频级别的TOP1准确率上高出了2.88%。相比于音视频对应学习AVC,在音频片段级别的TOP1准确率上高出了3.13%,在音频级别的TOP1准确率上高出了3.84%。

    2.4 音视频对抗对比学习训练架构分析

    在本节中,通过增加音视频对抗对比学习的网络架构的深度,测试了其在不同深度网络架构上的表现。

    音视频对抗对比学习的视觉架构从2层拓展到了18层,新增加的16层使用了R(2+1)D卷积层(Tran 等,2018),最后的3层全连接层保留。音视频架构从2层标准2D卷积神经网络拓展到了10层2D卷积神经网络,最后的3层全连接层也仍然保留。由于深层网络架构的训练参数远大于浅层网络架构,为了保证深层网络和浅层网络架构具有可比性,深层网络优化参数中的批处理大小设置为32,下游训练批次设置为7,其余优化参数与2.1.3节设置的一致。

    下游动作识别任务数据集选用UCF数据集。经过预训练后,在下游动作识别监督网络上进行迁移学习,优化参数与2.3.1节中设置的一致。最终得到了音视频对抗对比学习分别在浅层网络架构和深层网络架构上的视觉片段级别的TOP1准确率、TOP5准确率和视频级别的TOP1准确率、TOP5准确率,如图5左侧4组柱状图所示。在图5右侧还绘制了不同架构的参数数目对比的柱状图。

    如图5第5组所示,深层网络架构参数比浅层网络架构参数多出一千万个左右。通过图5左侧4组可以看到,深层网络架构下的学习效果均优于浅层网络架构下的学习效果,在视觉片段级别的TOP1准确率上高出了2.59%,在视觉片段级别的TOP5准确率上高出了5.87%;
    在视频级别的TOP1准确率上高出了3.48%,在视频级别的TOP5准确率上高出了5.44%。准确率的提升说明本文方法通过加深网络架构得到了更好的效果,并且还有很大的提升空间。

    图5 不同深度网络架构下的音视频对抗对比学习的学习效果比较

    本文的主要研究内容是面向多模态自监督特征融合的音视频对抗对比学习方法。通过创新性地引入视觉和听觉对抗性负样本和音视频模态内与模态间相联合的对抗对比学习方式,使得视听觉对抗性负样本可以不断跟踪难以区分的样本,构建了更加高效的音视频负样本空间,提高了音视频对比学习的学习质量。在此基础上,提出了采用视听觉对抗性负样本来代替视觉对抗性负样本和听觉对抗性负样本,简化框架的同时保持了性能。

    在相同条件下与Cross-AVID等方法比较,本文提出的音视频对抗对比学习方法在动作识别和音频分类上的各项指标均达到了最优效果。本文方法存在的不足有:通过增加网络深度,得到了更好的性能,说明存在很大的提升空间。此外,本文采用了整个负样本空间用做对比学习,一些与正样本互相关性高的负样本做出的贡献可能有限(Morgado 等,2021b)。

    下一步的工作可以在本文搭建的音视频负样本空间的基础上,探索高效的负样本选择策略,提高特征融合质量。本文方法具有广泛的应用场景,例如音源定位、视听语音分离等音视频相关的下游任务。

    猜你喜欢 对抗性音视频级别 技能主导类隔网对抗性项群运动训练特征和实战技巧研究——以网球为例四川工商学院学术新视野(2021年1期)2021-07-22Microchip推出首款车载以太网音视频桥接(AVB)全集成解决方案汽车零部件(2021年4期)2021-04-293KB深圳市一禾音视频科技有限公司家庭影院技术(2019年7期)2019-08-27级别分明晚晴(2018年3期)2018-12-06关于羽毛球教学中多球训练的探讨东方教育(2018年19期)2018-08-23WIFI音视频信号传输的关键问题探究电子制作(2018年12期)2018-08-01迈向UHD HDR的“水晶” 十万元级别的SIM2 CRYSTAL4 UHD家庭影院技术(2018年5期)2018-06-29新年导购手册之两万元以下级别好物推荐家庭影院技术(2018年3期)2018-05-09技战能主导类格斗对抗性项群的竞技特点与训练要求中国体育教练员(2017年2期)2017-07-31你是什么级别的中学生(2017年13期)2017-06-15

    相关热词搜索:音视频 对抗 融合

    • 范文大全
    • 说说大全
    • 学习资料
    • 语录
    • 生肖
    • 解梦
    • 十二星座