百花范文网 > 实用范文 > 其他范文 > 面向多模态自监督特征融合的音视频对抗对比学习

面向多模态自监督特征融合的音视频对抗对比学习

时间：2023-03-26 09:10:02来源：百花范文网本文已影响人

盛振涛，陈雁翔*，齐国君

1.合肥工业大学计算机与信息学院,合肥 230601；
2.智能互联系统安徽省实验室(合肥工业大学), 合肥 230601；
3.机器感知与学习实验室(美国中佛罗里达大学), 美国奥兰多 32816

在自然界中，音频和视觉事件往往同时发生：当说话时，嘴唇会同时动作；
当飞机低空掠过时，飞机会同时发出噪声；
当切菜时，刀与案板碰撞会发出声音。由于自然界中音视频信息具有时间同步性，因此人类在感知自然界的过程中，听觉系统和视觉系统往往协同工作来采集音视频信息，然后由大脑中枢系统融合处理音视频信息，最终人类形成了对外界的认知。在感知研究中，已有大量文献(Shams 和 Kim，2010;Heffner 和 Heffner，1992;Risto，1992)提供了实验证据，表明人在理解动态事件时不仅依靠视觉系统，还需要听觉系统的辅助，如果一个人的听觉功能受到影响，那么他对视觉事件的敏感度会降低(Myklebust，1960)。因此，相比于单从听觉事件或者视觉事件中提取到的特征，从音视频事件中可以提取到的特征包含更加丰富的信息。

对比学习是一种自监督表示学习，它使用对比损失(van den Oord 等，2018)衡量表示空间中样本对之间的相似性。在计算机视觉领域，传统的对比学习通过衡量样本之间的互信息(Hénaff，2020；
Hadsell等，2016；
Hjelm等，2019；
Zhuang等，2019；
van den Oord等，2018)来学习数据特征。Chen等人(2020)将对比学习应用到计算机视觉领域，提出可以对图像进行增强编码，让同一幅图的不同增强视图相互靠近，不同图像的增强视图相互远离。对比学习需要从负样本空间中抽取负样本，如何构建负样本空间是一个关键的问题。为了良好地对比学习质量，构建负样本空间的原则是足够大且具有连续性(He 等，2020)。在计算机视觉领域，许多工作(Hu 等，2021;He 等，2020;Li 等，2021;Ho 和 Vasconcelos，2020;Kalantidis 等，2020)专注于视觉负样本空间的构造。Wu 等人(2018)提出可以维护一个包含所有训练样本的存储库；
He 等人(2020)提出可以构建一个带有队列和移动平均编码器的动态负样本字典，既保证了负样本空间规模性和连续性，又减少了内存占用；
Li 等人(2021)、Kalantidis 等人(2020)提出可以通过聚类等手段寻找更加有效的负样本，增强负样本空间的有效性；
Hu 等人(2021)、Ho 和 Vasconcelos(2020)提出引入对抗性负样本的想法，可以有效地使负样本空间覆盖到具有挑战性的训练样本，提高对比学习质量。但是上述工作提出的对负样本空间的改进措施都聚焦于视觉单一模态，没有考虑到对比学习在音视频多模态领域的应用。相比于上述单一视觉模态下的对比学习，音视频跨模态对比学习可以使用不同的音视频视图进行对比学习，从而学习到信息更加丰富的音视频信息(Morgado 等，2021b;Owens 和 Efros，2018)。

本文针对音视频多模态下的对比空间负样本空间的构建问题，提出了面向多模态自监督特征融合的音视频对抗对比学习方法，如图1所示。在图1左侧，首先将视觉片段和音频片段进行增强编码，分别得到视觉特征向量和听觉特征向量。对同一片段再次进行增强编码，可以得到对应的正样本。在图1中间部分，展示了音视频跨模态对抗对比学习的训练流程。

首先，如图1中间左侧下方所示，使用标准正态分布来生成视觉和听觉对抗性负样本集合，从而构建了音视频负样本空间。定义视觉和听觉对抗性负样本数量均为65 536，确保了音视频负样本空间的规模性。其次，在图1中间的上半部分表示了音视频模态间的对抗对比学习，以左上的视觉特征向量为例，将其和对应的同一音频片段的在不同增强视图下的听觉特征向量作为正样本对(图1中间的左上方的相对箭头两侧)，而听觉对抗性负样本构成了负样本空间。在模态间对比学习的过程中，视觉特征向量要靠近听觉正样本，同时远离听觉对抗性负样本。然后，听觉对抗性负样本进行模态间对抗更新，使得自身更加接近视觉特征向量，增加对比学习的难度。以听觉特征向量为核心的模态间对抗对比学习流程也是如此。

与此同时，如果仅有图1中间的上半部分的音视频模态间对抗对比学习，那么实际上模型就退化为了单一模态的对抗对比学习，这是因为视觉和听觉对抗性负样本初始化时为标准正态分布，不包含任何自身模态的信息。为此，如图1中间的下半部分，增加了音视频模态内的对抗对比学习。以图1右下的视觉特征向量为例，将其和对应的同一视觉片段的在不同增强视图下的视觉特征向量作为正样本对，而视觉对抗性负样本构成了负样本空间。在模态内对比学习的过程中，视觉特征向量靠近视觉正样本，同时远离视觉对抗性负样本。接着，视觉对抗性负样本进行对抗更新，使得自身更加接近视觉特征向量，增加对比学习的难度。图1左下听觉特征向量对应的模态内对抗对比学习流程也是如此。

最终，视觉和听觉特征向量既包含了模态间信息，也包含了自身模态的信息。其融合了视听觉信息，可以更好地指导图1右侧的下游任务，提升准确率。1.2节的数学推导证明了对抗性负样本可以不断地跟踪音视频训练样本中难以区分的样本，从而提高对比学习质量。

图1 面向多模态自监督特征融合的音视频对抗对比学习方法方法示意图

本文定义了一个视听觉对抗性负样本集合，以此来代替原有的视觉对抗性负样本集合和听觉对抗性负样本集合。这一改进简化了框架，降低了框架的复杂度，1.3节的数学推导和2.3.1节的消融实验证明了这一简化措施的等价性和有效性。

音视频多模态自监督学习的目的是通过预训练得到融合音视频信息的特征表示，其通过微调可以迁移到不同下游任务上。对于提出的面向多模态自监督特征融合的音视频对抗对比学习方法，选取Kinetics-400(Kay 等，2017)数据集进行预训练，选取动作识别和音频分类下游任务，分别评估了训练得到的包含听觉信息的视觉特征表示和包含视觉信息的听觉特征表示。实验从定性和定量的角度表明，该方法可以很好地融合音视频特征，在动作识别和音频分类下游任务上与其他音视频跨模态自监督学习方法相比取得了具有竞争性的结果。

综上所述，本文的贡献在于：

1)提出了面向多模态自监督特征融合的音视频对抗对比学习方法，创新性地引入了视觉、听觉对抗性负样本集合来构建音视频负样本空间；

2)构建了音视频模态间与模态内对抗对比的联合学习模式，并证明了视觉和听觉对抗性负样本可以有效跟踪训练样本中难以区分的样本，从而提高了音视频特征融合质量；

3)进一步提出了音视频对抗对比学习简化框架，在减少一半视听觉对抗性负样本的同时保证了本文方法的精度。

面向多模态自监督特征融合的音视频对抗对比学习方法引入了视觉和听觉对抗性负样本，从而构建了一个更加高效的音视频跨模态负样本空间，增强了音视频跨模态对比学习的学习质量。

1.1 音视频对抗对比学习框架

图2 音视频对抗对比学习框架

本文采用了经典的InfoNCE对比损失函数(van den Oord 等，2018)，具体为

LInfoNCE(X，X′，R)=

(1)

综上所述，一方面，通过音视频编码器将视觉片段和音频片段投影到特征空间，得到视觉正样本对和听觉正样本对；
另一方面，定义视觉对抗性负样本集合和听觉对抗性负样本集合。由于集合中的每个对抗性负样本都是可梯度更新的，相当于在每个对抗性负样本后都添加了全连接层。初始状态下，全连接层的可梯度更新的参数矩阵为单位矩阵(矩阵行宽和列宽均为向量长度)。基于音视频正样本对和视听觉对抗性负样本集合，计算得到模态间与模态内对比损失函数。

因为视觉对抗性负样本集合Rv和听觉对抗性负样本集合Ra初始化为正态分布，所以其本身不包含音视频信息。如果仅仅定义模态内损失函数或模态间损失函数，那么就仅能学习到对应模态的特征，而无法学习到音视频跨模态特征，从而退化为单一模态下的对抗对比学习。因此，定义了联合对比损失函数LJoint，具体为

LJoint=LCross+LIn

(2)

LCross=LInfoNCE(Xv，X′a，Ra)+

LInfoNCE(Xa，X′v，Rv)

(3)

LIn=LInfoNCE(Xv，X′v，Rv)+

LInfoNCE(Xa，X′a，Ra)

(4)

式中，LIn为音视频模态内的对比损失函数，LCross为音视频模态间的对比损失函数。这一联合损失的形式与图2右侧一致。在图2中，对比损失函数LInfoNCE(Xv，X′a，Ra)简写为Lossva，其他3个损失函数亦然。在1.2节中，证明了通过对抗对比学习优化联合对比损失函数LJoint(式(2))，视觉对抗性负样本集合Rv和听觉对抗性负样本集合Ra不仅跟踪了模态内难以区分的特征样本，同时也跟踪了模态间的难以区分的特征样本。

1.2 音视频对抗对比学习梯度分析

根据定义的联合对比损失函数LJoint(式(2))可以看到,存在着两个可训练的主体：音视频查询编码器fvq和faq以及视觉和听觉对抗性负样本集合Rv和Ra。不仅沿着联合对比损失函数LJoint最小化方向更新音视频查询编码器fvq的参数θv和faq的参数θa，还沿着联合对比损失函数LJoint最大化方向更新视觉和听觉对抗性负样本集合Rv和Ra。因此，联合对比损失函数LJoint的优化问题变成了一个最大最小化问题，即

(5)

(6)

(7)

(8)

(9)

(10)

1.3 音视频对抗对比学习框架的简化

(11)

(12)

为了评估性能，首先进行预训练，然后在动作识别和音频分类下游任务上进行迁移学习，最后分别进行定性和定量评估。音视频对应和音视频实例判别是音视频跨模态自监督学习领域具有代表性的方法，分别与它们进行实验对比。对抗对比学习(adversarial contrast,AdCo)是一种视觉模态下的自监督表示学习方法。将其作为比较方法，体现音视频特征融合的有效性。音视频对应(audio visual corresponding,AVC)是一个二元分类任务：给定一个视觉片段和一个音频片段，判断它们是否对应，其中正对来源于同一个视频，负对来源于不同视频。音视频实例判别学习则采用对比学习，将一个视觉片段与多个音频片段进行对比，同时将一个音频片段与多个视觉片段进行对比。其中正对来源于视频中时间同步对应的音视频片段，负样本既可能来源于同一视频的不同时间点的片段，也有可能来源于不同视频的片段。因此，音视频实例判别中包含了音视频对应和音视频时间同步这两个隐含约束条件。音视频实例判别学习存在3种变体，分别是模态间实例判别学习(self-audio visual instance discrimination)、联合模态实例判别学习(joint-audio visual instance discrimination)和跨模态音视频实例判别学习(cross-audio visual instance discrimination,Cross-AVID)。经过实验验证,跨模态音视频实例判别学习在3种变体中达到了最优效果(Morgado 等，2021b)，因此本文采用跨模态音视频实例判别学习(Cross-AVID)作为比较方法。为了公平比较，采用与本文方法相同的架构和优化设置重新实施上述方法。

2.1 实验设置

2.1.1 数据集选取

采用Kinetics-400K(Kay 等，2017)的子集Kinetics-100K(Morgado 等，2021b)进行音视频对抗对比学习预训练。Kinetics-400数据集包括了240 K的持续时间大约为10 s的视频，涵盖了400类人类动作，例如演奏乐器、握手或者拥抱等。在预训练时，仅使用自监督学习方法提取Kinetics-400数据集中的音视频信息，而不使用标签信息。

针对下游动作识别任务，选取了UCF-101数据集(Soomro 等，2012)和HMDB-51(human metabolome database)数据集。UCF-101数据集包含了13 320个视频，涵盖了101类真实动作，具有动作多样性。UCF-101的视频在相机运动幅度、物体外观和姿态、物体尺度、视角、背景和光照条件上都存在较大变化，非常具有挑战性。HMDB数据集(Kuehne等，2011)包含6 849个剪辑，分为51个动作类别，每个类别至少包含101个剪辑。动作类别可以分为5种类型：面部表情动作、与对象操纵相关的嘴部动作、肢体运动、与环境交互的肢体动作以及与人类交互的肢体动作。可以看到，HMDB51数据集类别之间的相似性高，非常具有挑战性。本文选取了HMDB-51数据集中的20类动作进行下游动作识别任务。针对下游音频分类任务，采用了ESC50(environmental sound classification)数据集(Piczak，2015)。ESC50数据集包含有2 000个环境录音，每段录音长度为5 s，分为50个类别，可以作为环境声音分类的基准测试方法。本文选取了ESC50数据集中的25类用做基准。

2.1.2 视觉特征与听觉特征的预处理

在视觉处理上，以16 帧/s的帧率随机选取一段时长为0.5 s的视觉片段，其中包含了8个连续的视频帧。然后对选取的视觉片段进行标准的视觉增强操作(Szegedy 等，2015)，包括随机裁剪、随机水平翻转和色彩调节。经过视觉增强操作，得到8×224×224的视觉增强视图对，将其送入到视觉编码器组中。在音频处理上，以24 KHz的音频采样频率选取了与视觉片段对应的时长为2 s的音频片段。同样地，对音频片段进行增强操作，包括随机调整音量、时间抖动，并且接着进行了短时傅里叶变换，得到了200×257(200个时间步长，257个频率点)的音频增强视图对，将其送入音频编码器组中。

2.1.3 音视频网络架构和优化设置

对于视觉模态，选取了2层标准3D卷积神经网络，并在其后添加了3层MLP(multilayer perceptron)层，以此作为视觉编码器架构。对于听觉模态，选取了2层标准2D卷积神经网络，同样在其后添加了3层MLP层，以此作为音频编码器架构。具体架构如表1所示。

表1 音视频网络架构

在表1中，Xs表示视觉片段中每一帧的空间尺寸，Xn表示视觉片段的帧数，Cv表示视觉片段的通道数，Xf表示音频片段的频率采样点数，Xt表示音频片段的时间采样点数，Ca表示音频片段的通道数。对于视觉片段，采用RGB格式，因此视觉片段的初始通道数为3。对于音频片段，采用单通道，因此音频片段的初始通道数为1。视觉与听觉对抗性负样本集合大小均设置为65 536。

Adam优化器学习率分别设置为0.011和1.1来优化音视频编码器网络和视听觉对抗性负样本集合。优化器权重衰减值均设置为0.000 01，动量值均设置为0.9。批处理大小设置为96，训练总批次设置为30。训练过程使用了2块TITAN Xp型号的GPU。在训练过程中，对于同一个批次，首先沿对比损失减小的梯度方向来更新音视频编码器网络，然后沿对比损失增大的梯度方向来更新视觉和听觉对抗性负样本集合。

2.2 定性评估

2.2.1 预训练效果的定性评估

对本文方法的预训练效果进行定性评估。将视觉编码器组的视觉查询编码器作为前端，并在其后加上了1层全连接层和1层softmax层来映射至101类，以此作为下游动作识别的监督网络。遵循之前的工作(Korbar 等，2018;Tian 等，2020;Han 等，2019)在UCF-101数据集上的评估协议，网络重新整体微调训练来进行迁移学习。与此同时，将视觉查询编码器未经预训练的监督网络和视觉查询编码器经过Cross-AVID预训练后的监督网络设置为对照网络。

预训练参数在2.1节已经详细说明，为了进行下游迁移学习，还需要进行下游监督网络的优化设置。仍旧使用Adam优化器来优化网络。为了与预训练参数保持合理的相对关系，优化器的学习率设置为0.000 1，动量设置为0.9，批处理大小设置为64，总训练批次设置为13。

在经过上游预训练(可选)和下游迁移学习后，通过对101维标签中实际类别指向的标签误差进行反向传播，提取监督网络最后一层卷积层的梯度，然后将梯度可视化，并与原始图像相叠加，最终可得监督网络最后一层卷积层的梯度类激活热力图(gradient-class activation map,Grad-CAM)，如图3所示。由于监督网络最后一层卷积层的尺寸为112×112，因此给出的梯度类激活热力图的细粒度较大。另外，由于图像经过了数据增强操作，与原始图像相比，梯度类别激活热力图会随机水平翻转或者随机局部放大。

图3 梯度类激活热力图对比

图3从左到右原始图像的真实动作标签分别为：棒球投掷、弹奏西塔琴、弹奏多尔鼓和乒乓球击球。对于Grad-CAM来说，越明亮的地方表明其梯度值越大，对于类别的贡献越大。图3第1列，相比于视觉查询编码器未经预训练和视觉查询编码器经过Cross-AVID预训练后的监督网络，视觉查询编码器经过本文方法预训练后的监督网络更多地关注了棒球手的全身投掷准备动作，这些都是高层语义信息，是区分动作的重要信息源。第2列视觉查询编码器经过本文方法预训练后的监督网络更多地关注了弹琴者的弹琴动作，而不是像Cross-AVID只是关注了一些边缘轮廓信息。第3列视觉查询编码器经过本文方法预训练后的监督网络更多地关注了击鼓者的击鼓动作。第4列视觉查询编码器经过本文方法预训练后的监督网络更多地关注了乒乓球运动员的击球动作。图3表明,经过本文方法预训练后，下游动作识别任务的监督网络更多地关注了高层语义信息。

2.2.2 视觉和听觉对抗性负样本质量的定性评估

在1.2节的音视频对抗对比学习梯度分析中，证明了视觉和听觉对抗性负样本可以跟踪难以区分的视听觉样本。本节通过可视化音视频对抗对比学习的音视频查询样本与视觉和听觉对抗性负样本的t-SNE(t-distributed stochastic neighbor embedding)图，定性分析了视觉和听觉对抗性负样本的质量。由于本文方法既有音视频模态间对抗对比学习，又有音视频模态内对抗对比学习，因此，将音视频查询样本与视觉和听觉对抗性负样本(在图4(a)中简记为音视频对抗样本)组合在一起，绘制其t-SNE图，如图4(a)所示。

将跨模态音视频实例判别(Cross-AVID)设置为对照方法。由于跨模态音视频实例判别仅仅使用了模态间对比学习，因此将视觉查询样本和从音频存储库中采样的负样本组合在一起，绘制其t-SNE图，如图4(b)所示；
将视觉查询向量和从音频存储库中采样的负样本组合在一起，绘制其t-SNE图，如图4(c)所示。

图4 音视频对抗对比学习的t-SNE图与跨模态音视频实例判别的t-SNE图对比

将图4(a)(b)进行比较，可以发现本文方法获得的视觉对抗性负样本的分布更加均匀，呈椭圆状分布，而在Cross-AVID中，从音频存储库采样的负样本的分布却存在着小集群，即图4(b)中红框所标区域。与图4(c)进行比较，可以发现在Cross-AVID中，从视觉存储库采样的负样本分布不均匀，即图4(c)中红框标注区域缺失了负样本。

图4(b)(c)中存在的小集群以及缺失会使得Cross-AVID方法的负样本空间无法很好地覆盖到音视频查询样本。这会导致音视频查询样本与负样本很容易被区分。而通过本文方法获得的视觉和听觉对抗性负样本分布(图4(a))呈椭圆形，较好覆盖到音视频查询样本。因此音视频查询样本与对抗性负样本不容易区分，有利于提高对比学习的质量。也就是说，视觉与听觉对抗性负样本在迭代过程中密切跟踪了视听觉样本，构建了一个更加高效的音视频负样本空间。

2.3 定量评估

将本文方法与音视频对应(AVC)和跨模态音视频实例判别(Cross-AVID)这两种音视频自监督学习方法进行比较。此外，设置了对抗对比学习(AdCo)作为视觉单模态的对照组。在相同的架构下，相比于视觉表示对比学习(SimCLR)、动量对比学习(MoCO v2)和基于聚类对比的对比学习SWAV(swapping assignments between views)等视觉自监督学习方法，AdCo在ImageNet数据集上的TOP1准确率更高(Hu 等，2021)。本文还对1.3节中提出的简化(表2中最后一行)进行了消融实验。

2.3.1 动作识别任务

表2比较了各种音视频自监督表征学习方法预训练的迁移效果。在相同实验设置下，基于视觉单模态的自监督表征学习方法AdCo在各项指标上均低于基于音视频多模态的自监督表征学习方法(AVC、Cross-AVID、本文)，这说明基于音视频多模态的方法学习到了更加高质量的信息(Huang 等，2021)，因此在下游迁移任务上的效果也更好。比较3种基于音视频多模态的自监督表征学习方法，本文方法在视觉片段级别的TOP1和TOP5准确率以及视频级别的TOP1和TOP5准确率上均达到了最优效果。与跨模态音视频实例判别(Cross-AVID)方法相比，视觉片段级别的TOP1准确率高出了0.47%，视觉片段级别的TOP5准确率高出了2.06%；
视频级别的TOP1准确率高出了0.35%，视频级别的TOP5准确率高出3.17%。音视频对应(AVC)方法除了在视频级别的TOP5准确率上比跨模态音视频实例判别(Cross-AVID)方法高0.68%以外，其他指标均低，这是由于跨模态音视频实例判别(Cross-AVID)学习还包含了同一视频的不同时间点的负样本片段，因此隐含有音视频时间同步这一约束条件，是一个更为困难的对比学习任务，可以学习到更优质的特征表示。而本文方法由于构建了更加高效的负样本空间，因此学习到的特征表示包含了更加丰富的音视频信息，在下游任务上的迁移效果更好。与无预训练直接进行动作识别的方法相比，3种音视频多模态自监督表征学习方法在各项指标上均有提升，这说明了其有效性。与此同时，虽然AdCo在ImageNet的TOP1准确率上效果优于SimCLR、MoCO v2和SWAV等视觉自监督学习方法(Hu 等，2021)，但是AdCo在动作识别UCF数据集上准确率指标值却均低于未经预训练的方法的指标值，这可能是因为AdCo采用了与3种音视频多模态自监督表征学习方法相同的实验设置，而它需要更多的训练批次。

表2 动作识别任务准确率(UCF)

此外，在HMDB动作识别数据集上进行了测试。将预训练得到的视觉编码器组的视觉查询编码器作为前端，下游网络设置了3层全连接层和1层softmax层来映射至20类，采用Adam优化器来优化网络，学习率设置为0.000 1，动量设置为0.9，批处理大小设置为64，训练批次设置为8。由于类别数为20，TOP5准确率意义不大，因此表3中给出视觉片段级别和视频级别的TOP1准确率。

表3 动作识别任务准确率(HMDB)

通过表3可以看到，在相同的实验条件下，本文方法在HMDB动作识别数据集上达到了最优效果。相比于Cross-AVID方法，本文方法在视觉片段级别的TOP1准确率和视频级别的TOP1准确率上分别高了0.89%和0.83%。AdCo的视觉片段级别和视频级别的TOP1准确率比无预训练的准确率分别高了2.3%和2.48%，这可能是因为对动作识别HMDB数据集来说，AdCo的预训练是充分的。

表2和表3的最后两行分别在UCF和HMDB动作识别数据集上进行了改进措施的消融实验。比较表2最后两行的数据，在UCF动作识别数据集上，对比本文方法在简化前和简化后的表现，视觉片段级别和视频级别的TOP1准确率相差不超过0.25%，视觉片段级别和视频级别的TOP5准确率相差不超过0.5%。比较表3最后两行的数据，在HMDB动作识别数据集上，对比本文方法在简化前和简化后的表现，视觉片段级别的TOP1准确率差值超过0.5%。这可能是由于HMDB数据集的动作幅度大，导致视觉片段级别的准确率波动大。视频级别准确率通过对视觉片段的预测值取平均后得出。可以看到，视频级别的TOP1准确率相差不超过0.25%。在这两个数据集上的消融实验结果说明了简化对抗性负样本这一措施在减少了一半对抗性负样本的同时保证了精度。

2.3.2 音频分类任务

在环境声音ESC数据集上，对本文方法得到的包含视觉信息的听觉特征进行评估。具体来说，将预训练得到的音频编码器组的音频查询编码器作为前端，下游网络设置了3层全连接层和1层softmax层，映射至25类。采用了Adam优化器对网络进行优化，学习率设置为0.000 1，动量设置为0.9，批处理大小设置为64，训练批次设置为8。由于AdCo是纯视觉预训练方法，因此本文选用了音视频对应AVC方法和跨模态音视频实例判别学习Cross-AVID方法作为音频分类任务的对照组。

在表4中报告了音频片段级别和音频级别的TOP1准确率。通过对同一音频的10个音频片段的预测值(预测为各个类别的值，大小为0到1之间)求平均，计算得到音频级别的TOP1准确率。

表4 音频分类任务准确率(ESC)

通过表4可以看到，本文方法效果优于无预训练的方法。这证明了本文方法的有效性。相比于各类音视频自监督表示学习方法，本文提出的方法达到了最优效果。具体来说，相比于跨模态音视频实例判别学习Cross-AVID，在音频片段级别的TOP1准确率上高出了1.56%，在音频级别的TOP1准确率上高出了2.88%。相比于音视频对应学习AVC，在音频片段级别的TOP1准确率上高出了3.13%，在音频级别的TOP1准确率上高出了3.84%。

2.4 音视频对抗对比学习训练架构分析

在本节中，通过增加音视频对抗对比学习的网络架构的深度，测试了其在不同深度网络架构上的表现。

音视频对抗对比学习的视觉架构从2层拓展到了18层，新增加的16层使用了R(2+1)D卷积层(Tran 等，2018)，最后的3层全连接层保留。音视频架构从2层标准2D卷积神经网络拓展到了10层2D卷积神经网络，最后的3层全连接层也仍然保留。由于深层网络架构的训练参数远大于浅层网络架构，为了保证深层网络和浅层网络架构具有可比性，深层网络优化参数中的批处理大小设置为32，下游训练批次设置为7，其余优化参数与2.1.3节设置的一致。

下游动作识别任务数据集选用UCF数据集。经过预训练后，在下游动作识别监督网络上进行迁移学习，优化参数与2.3.1节中设置的一致。最终得到了音视频对抗对比学习分别在浅层网络架构和深层网络架构上的视觉片段级别的TOP1准确率、TOP5准确率和视频级别的TOP1准确率、TOP5准确率，如图5左侧4组柱状图所示。在图5右侧还绘制了不同架构的参数数目对比的柱状图。

如图5第5组所示，深层网络架构参数比浅层网络架构参数多出一千万个左右。通过图5左侧4组可以看到，深层网络架构下的学习效果均优于浅层网络架构下的学习效果，在视觉片段级别的TOP1准确率上高出了2.59%，在视觉片段级别的TOP5准确率上高出了5.87%；
在视频级别的TOP1准确率上高出了3.48%，在视频级别的TOP5准确率上高出了5.44%。准确率的提升说明本文方法通过加深网络架构得到了更好的效果，并且还有很大的提升空间。

图5 不同深度网络架构下的音视频对抗对比学习的学习效果比较

本文的主要研究内容是面向多模态自监督特征融合的音视频对抗对比学习方法。通过创新性地引入视觉和听觉对抗性负样本和音视频模态内与模态间相联合的对抗对比学习方式，使得视听觉对抗性负样本可以不断跟踪难以区分的样本，构建了更加高效的音视频负样本空间，提高了音视频对比学习的学习质量。在此基础上，提出了采用视听觉对抗性负样本来代替视觉对抗性负样本和听觉对抗性负样本，简化框架的同时保持了性能。

在相同条件下与Cross-AVID等方法比较，本文提出的音视频对抗对比学习方法在动作识别和音频分类上的各项指标均达到了最优效果。本文方法存在的不足有：通过增加网络深度，得到了更好的性能，说明存在很大的提升空间。此外，本文采用了整个负样本空间用做对比学习，一些与正样本互相关性高的负样本做出的贡献可能有限(Morgado 等，2021b)。

下一步的工作可以在本文搭建的音视频负样本空间的基础上，探索高效的负样本选择策略，提高特征融合质量。本文方法具有广泛的应用场景，例如音源定位、视听语音分离等音视频相关的下游任务。

猜你喜欢对抗性音视频级别技能主导类隔网对抗性项群运动训练特征和实战技巧研究——以网球为例四川工商学院学术新视野(2021年1期)2021-07-22Microchip推出首款车载以太网音视频桥接(AVB)全集成解决方案汽车零部件(2021年4期)2021-04-293KB深圳市一禾音视频科技有限公司家庭影院技术(2019年7期)2019-08-27级别分明晚晴(2018年3期)2018-12-06关于羽毛球教学中多球训练的探讨东方教育(2018年19期)2018-08-23WIFI音视频信号传输的关键问题探究电子制作(2018年12期)2018-08-01迈向UHD HDR的“水晶” 十万元级别的SIM2 CRYSTAL4 UHD家庭影院技术(2018年5期)2018-06-29新年导购手册之两万元以下级别好物推荐家庭影院技术(2018年3期)2018-05-09技战能主导类格斗对抗性项群的竞技特点与训练要求中国体育教练员(2017年2期)2017-07-31你是什么级别的中学生(2017年13期)2017-06-15

相关热词搜索：音视频对抗融合

范文大全
说说大全
学习资料
语录
生肖
解梦
十二星座

2022年4月主题党日活动记录范文15篇
2022年4月主题党日活动记录范文15篇2022年4月主题党日活动记录范文篇1一个崇尚阅读的民族，必然精神饱满、意气风发、活力四射。习近平总书记强调：“学习

【活动总结】日期：2022-08-01
少先队的光荣历史故事队前教育-光辉历程
2017－2018学年队前教育1光辉历程一、劳动童子团1924——1927二、三十年代年的中国是一个

【法律文书】日期：2020-06-23
家乡赋|最美的家乡赋
家乡赋　　孙传志　　　　今安康市，白河双丰镇，吾之家乡也。三环沃土，山水环抱。其北依山，山系五岭，山

【调研报告】日期：2020-04-01
党支部1-12月全年主题党日活动计划表
2022年党支部主题党日活动计划表序号活动时间活动方式活动内容12022年1月专题学习研讨集中观看2022年新年贺词，积极开展学习研讨交流。组织生活会组织党员认真对照党章...

【活动总结】日期：2022-10-14
【人教版1-6年级数学上册知识点精编】1-6年级数学人教版教材
人教版二年级数学上册知识点汇总第一单元长度单位一、米和厘米1、测量物体的长度时，要用统一的标准去测量

【调研报告】日期：2020-11-08
2022年2月份主题党日活动记录5篇
2022年2月份主题党日活动记录5篇2022年2月份主题党日活动记录篇1尊敬的党组织：在今年的开学初，本人积极参加教研室组织的教研活动，在学校教研员的指

【活动总结】日期：2022-08-12
2023年平安校园建设方案13篇
平安校园建设方案“平安校园”创建工作，我们幼儿园全体教职员工一直把它当作头等大事来抓。领导高度重视，以“平安校园”创建活动为抓手，建立和规范校园安全工作机制

【规章制度】日期：2023-11-02
医院最佳主题党日活动11篇
医院最佳主题党日活动11篇医院最佳主题党日活动篇1 医院最佳主题党日活动篇2为隆重纪念中国共产党成立100周年，进一步巩固党的群众路线教育实践活动成果，切实

【活动总结】日期：2022-10-29
南京大屠杀国家公祭日悼念文案句子11篇
南京大屠杀国家公祭日悼念文案精选句子1、惟有民魂是值得宝贵的，惟有他发扬起来，中国才有真进步。——鲁迅2、我爱我的祖国，爱我的人民，离开了它，离开了他们，我

【企划文案】日期：2023-10-20
主题党日活动记录202210篇
主题党日活动记录202210篇主题党日活动记录2022篇12021年是中国共产党成立100周年，为广泛开展爱国主义宣传教育，铭记党的历史，讴歌党的光辉历程，

【活动总结】日期：2022-08-02
入少先队员改正的缺点有哪些_少先队申请书
敬爱的少先队组织：我们是共产主义接班人，继承革命先辈的光荣传统，爱祖国，爱人民，鲜艳的红领巾飘扬在前胸　　我叫xx，是一年级（x）班的小学生。每当听到这首...

【简历资料】日期：2019-07-28
正式的晚宴邀请函公司晚宴邀请函
尊敬的先生女士：　　我公司谨定于xxxx年xx月xx日xx：xx在xxxx店隆重举行xx市xx届xxxx晚宴(宴会地址：xx区xx路xxxx)　　敬请届时光临!xxxxxx集团股份有限公司xxxx有限公司敬邀xxxx年xx月xx日

【简历资料】日期：2019-08-03
一年级新学期目标简短_一年级学生新学期打算
新学期到了，我是一年级下册的小学生了。　　上课的时候，我要认真学习，不做小动作，认真听讲。我要认真学习，天天向上，努力学习，耳朵要听老师讲课，眼睛要瞪得大大的看老...

【简历资料】日期：2019-10-26
[信访复查复核制度作用探讨]信访复查复核有用吗
作为我国特有的一项制度，信访制度的出现并长期存在不是偶然的，虽然一些法学专家认为信访制度具有“人治”

【职场指南】日期：2020-02-16
[党员干部2019年主题教育个人问题检视清单及整改措施2篇] 党员干部
2019年主题教育问题检视清单及整改措施根据主题教育领导小组办公室《关于认真做好主题教育检视问题整改

【求职简历】日期：2019-11-08
网络维护工作内容_(精华)国家开放大学电大专科《网络系统管理与维护》形考任务1答案
国家开放大学电大专科《网络系统管理与维护》形考任务1答案形考任务1理解上网行为管理软件的功能【实训目

【职场指南】日期：2020-07-17
党委会与局长办公会的区别_局长办公会制度
为进一步加强xxx局工作的规范化、制度化建设，提高行政效能，规范议事程序，特制定本制度。一、会议形式1、局长办公会议由局长、副局长参加。由局长召集和主持。根据工作需要...

【求职简历】日期：2019-07-30
学生会组织部部长竞选稿5篇
学生会组织部部长竞选稿以“三制”为统领推进农村党的建设中共＊＊市委组织部近年来，＊＊市认真落实中央、省和徐州市委的部署，积极适应发展要求，从加强领导体制、运

【求职简历】日期：2023-11-06
如何凝心聚力谋发展【坚定信心谋发展凝心聚力促跨越】
当前，清河正处于在苏北实现赶超跨越基础上全面腾飞的战略机遇期，处于在全市率先实现全面小康基础上率先实

【简历资料】日期：2020-03-17
《铁拳砸碎“黑警伞”》警示教育片观后感
影片深刻剖析了广西北海市公安局海西派出所原所长张枭杰蜕变堕落的轨迹。观看警示教育片后，做为一名党员教

【简历资料】日期：2020-08-17
2022年纪检监察工作座谈发言：推动新时代纪检监察工作高质量发展【完整版】
高质量是新时代党和国家各项事业发展的总要求，推进纪检监察工作高质量发展是党***和XXX交给纪检监察机关的重大政治任务。必须准确把握新时代新阶段对纪检监察工作的新要求，...

【其他范文】日期：2022-11-05
2022年市直机关副职领导党史学习教育专题民主生活会对照检查材料（完整）
根据上级纪委机关和组织部《关于认真开好2021年度关于开好党史学习教育专题民主生活会的通知》要求，我紧扣弘扬伟大建党精神，坚持党的百年奋斗历史经验，坚定历史自信，不忘...

【其他范文】日期：2022-08-06
2022年人防培训班领导讲话
当前位置：>>>2022-03-14人防专业人才是人防事业建设与发展的关键力量,岗位在职培训是人防专业人才队伍建设的重要方式。下面就是好范文网小编给大家整理的人防培训班领导讲话...

【其他范文】日期：2022-12-03
2023年度中考数学知识点：实数的性质3篇
中考数学知识点：实数的性质1、平方根如果一个正数x的平方等于a，即x2＝a，那么这个正数x叫做a的算术平方根。a的算术平方根记为，读作“根号a”，a叫做被开

【导游词】日期：2023-10-18
[中学学期结束发言稿]学期结束家长会发言稿
各位老师：大家好！首先给大家报喜，喜报一、由于上级领导的正确领导，社会各界的大力支持，全体教师的通力合作，初三全体师生的共同努力，今年的中考又取得了大的进步，中考...

【礼仪】日期：2019-10-13
机关干事述职报告（完整文档）
各位领导，同志们：我是今年5月份被任命为保卫处干事的。按照业务分工，我主要负责司法、信访、群众工作。下面，我就今年以来的学习、工作和自律情况汇报如下，不妥之处，恳请...

【其他范文】日期：2022-10-10
益阳橡机新型416挤出压片机下线
日前，益阳橡胶塑料机械集团有限公司为国外某客户定制生产的新型416双锥双螺杆挤出压片机成功下线。该设

【其他范文】日期：2023-03-25
2022某县长在政府党组成员抓党建工作述职评议会议上的讲话
某县长在政府党组成员抓党建工作述职评议会议上的讲话同志们：前面，我就年度县政府党组书记抓党建工作进行了述职，县政府党组成员分别进行了现场述责述廉、述法，大家现场进...

【其他范文】日期：2022-10-22
农村信用社金融风险防范化解3篇
农村信用社金融风险防范化解3篇农村信用社金融风险防范化解篇1自上柜以来，我在本行摸索中前进，受益匪浅。特别是过去的20____年，我的各个方面都得到了很大程

【其他范文】日期：2022-08-18
教师岗位职责范本教师工作职责
　1、以马列主义、毛泽东思想、邓小平理论和“xxxx”重要思想为指导，全面落实科学发展观，正确贯彻执行党和国家的教育方针。深刻理解“以诚养德、以静修业”的校训，对全体学...

【口号大全】日期：2019-09-03
军转座谈会交流发言4篇
军转座谈会交流发言4篇军转座谈会交流发言篇1大家好，我叫贺丽，2015届选调生，来自康定市委组织部，现在省委编办跟班学习。今天，非常荣幸向大家汇报我的学习收

【发言稿】日期：2022-10-27
12岁生日小寿星发言4篇
12岁生日小寿星发言4篇12岁生日小寿星发言篇1各位来宾、各位朋友：大家好!今天，我们欢聚在这里，共同庆祝**十二周岁生日。首先，我代表**的父母以

【发言稿】日期：2022-07-31
廉政大会总结发言稿7篇
廉政大会总结发言稿7篇廉政大会总结发言稿篇1各位领导，同志们：根据会议安排，我就党风廉政建设工作做表态发言，不妥之处，请批评指正。一、提高认识，切实

【发言稿】日期：2022-10-30
【企业疫情风险控制方案】 2020企业复工疫情方案
企业疫情风险控制方案2020新冠病毒肺炎疫情防控工作总结汇报3篇　　关于新型冠状病毒感染的肺炎疫

【演讲稿】日期：2020-02-27
我最敬佩的人开头_我敬佩的一个人作文20篇2020年
我敬佩的一个人作文20篇　　我敬佩的一个人作文一）：　　我身边有很多值得我们敬佩的人，但我最敬佩的一

【发言稿】日期：2020-11-10
纪委书记工作表态发言4篇
纪委书记工作表态发言4篇纪委书记工作表态发言篇1在镇党委政府正确领导下，在全村干部和群众的共同努力下，紧紧围绕建设社会主义新农村工作为重点，尽职尽责，与时俱

【发言稿】日期：2022-09-30
党员教育培训总结交流发言12篇
党员教育培训总结交流发言12篇党员教育培训总结交流发言篇1根据市委组织部《关于开展我市〈20XX

【发言稿】日期：2022-12-19
[钻井队队长（副队长、指导员）岗位HSE应知应会试题（1863）]
钻井队队长（副队长、指导员）岗位HSE应知应会试题（判断题:771;单选题:626;多选题:466）

【贺词】日期：2020-09-23
话剧《家》剧本话剧剧本:爱的空间
找文章到更多原创-(http: www damishu cn)人物介绍：刘伟，男，32岁，某购物广

【演讲稿】日期：2020-01-21
五言绝句大全500首古诗_五言绝句144首
五言绝句144首　　五言绝句（一）：　　1《春夜喜雨》唐朝·杜甫　　好雨知时节，当春乃发生。随风潜入

【祝福语】日期：2021-03-13
2023年中国行政区划调整方案(设想优秀3篇
中国行政区划调整方案(设想优秀民政部第二次行政区划研讨会会议内容一、缩省的意义与原则1．意义1）利于减少中间层次中国行政区划层级之多为世界之最，既使管理成本

【周公解梦】日期：2024-02-20
2023年和儿媳妇在一起幸福的句子3篇
和儿媳妇在一起幸福的句子1、假如人生不曾相遇，我还是那个我，偶尔做做梦，然后，开始日复一日的奔波，淹没在这喧嚣的城市里。我不会了解，这个世界还有这样的一个你

【格言】日期：2023-11-10
XX老干局推进党建与业务深度融合发展工作情况调研报告:党建调研报告
XX老干局推进党建与业务深度融合　发展工作情况的调研报告　党建工作与业务工作融合发展始终是一个充满生

【成语大全】日期：2020-08-28
中国共产党第三代中央领导集体的卓越贡献
中国共产党第三代中央领导集体的卓越贡献　　--------------继往开来铸就辉煌　　【摘要】改

【成语大全】日期：2020-03-20
信息技术2.0能力点 [全国中小学教师信息技术应用能力提升工程试题题库及参考答案「精编」]
全国中小学教师信息技术应用能力提升工程试题题库及答案(复习资料)一、判断题题库（A为正确，B为错误）

【格言】日期：2020-11-17
党建工作运行机制内容有哪些_构建基层党建工作运行机制探讨
党的基层组织是党在社会基层组织中的战斗堡垒，是党的全部工作和战斗力的基础。加强和改进县级以下各类党的

【经典阅读】日期：2020-01-22
电大现代教育原理_最新国家开放大学电大《现代教育原理》形考任务2试题及答案
最新国家开放大学电大《现代教育原理》形考任务2试题及答案形考任务二一、多项选择题（共17道试题，共3

【成语大全】日期：2020-07-20
集合推理_七,推理与集合
七推理与集合1 期中考试数学成绩出来了，三个好朋友分别考了88分，92分，95分。他们分别考了多少分

【名人名言】日期：2020-12-18
基层党务工作基本内容_党建基本工作有哪些
党建基本工作有哪些(一)　　　基层党建工作包括哪些内容　　　选择了大学生村官这条路，你就与农村基层党

【名人名言】日期：2020-08-06
【2020-2021学年高一英语外研版（2019）选择性必修第一册Unit3Faster,higher,strongerSectionⅠ导学讲义】
Unit3　Faster,higher,stronger背景导学MichaelJordan—Head

【歇后语】日期：2021-04-19
关于三农工作重要论述心得体会3篇
关于三农工作重要论述心得体会3篇关于三农工作重要论述心得体会篇1习近平总书记指出：“建设现代化国家离不开农业农村现代化，要继续巩固脱贫攻坚成果，扎实推进乡村

【学习心得体会】日期：2022-10-29
【福生庄隧道坍塌处理方案】福生庄隧道在哪里
(呼和浩特铁路局大包电气化改造工程指挥部，内蒙古呼和浩特010050)摘要：文章介绍了福生庄隧道

【学习心得体会】日期：2020-03-05
五个一百工程阅读心得体会13篇
五个一百工程阅读心得体会13篇五个一百工程阅读心得体会篇1凡益之道，与时偕行。在全国网络安全和信

【学习心得体会】日期：2022-12-07
城管系统警示教育心得体会9篇
城管系统警示教育心得体会9篇城管系统警示教育心得体会篇1各党支部要召开多种形式的庆七一座谈会，组织广大党员进行座谈，回顾党的光辉历程，畅谈党的丰功伟绩，

【学习心得体会】日期：2022-10-09
发展对象培训主要内容10篇
发展对象培训主要内容10篇发展对象培训主要内容篇1怀着无比激动的心情，我有幸参加了__新区区委党校20__年第四期(区级机关)党员发展对象培训班。这次的学习

【培训心得体会】日期：2022-09-24
凝聚三种力量发展全过程人民民主心得体会12篇
凝聚三种力量发展全过程人民民主心得体会12篇凝聚三种力量发展全过程人民民主心得体会篇1新民主主义革命是指在帝国主义和无产阶级革命时代，殖民地半殖民地国家中的

【学习心得体会】日期：2022-08-31
2022年全国检察长会议心得7篇
2022年全国检察长会议心得7篇2022年全国检察长会议心得篇1眼睛是心灵上的窗户，我们通过眼睛才能看到世间万物，才能看到眼前这美好的一切。拥有一双明亮的眼

【学习心得体会】日期：2022-10-31
在街道深化作风建设推动高质量发展走在前列动员会上讲话
在2023年街道深化作风建设推动高质量发展走在前列动员会上的讲话同志们：今天我们召开“街道深化作风建设推动高质量发展走在前列动员会”，这次会议是街道三季度召开的第一场...

【军训心得体会】日期：2024-03-17
全面从严治党的心得体会800字7篇
全面从严治党的心得体会800字7篇全面从严治党的心得体会800字篇1中国特色社会主义是我们党领导

【学习心得体会】日期：2022-12-14
2月教师党员个人思想汇报5篇
2月教师党员个人思想汇报敬爱的党组织：最近这一个月的时间对于我来说是极不平凡的，在这段时间里我认真学习了文化部网上党校的相关内容，经过长达40小时的

【教师心得体会】日期：2023-10-15
2024年主题教育民主生活会批评与自我批评意见（38条）（范文推荐）
2023年主题教育民主生活会六个方面个人检视、相互批评意见：1 理论学习系统性不强。学习习近平新时代中国特色社会主义思想不深不透，泛泛而学的时候多，深学细照的时候少，特...

【邓小平理论】日期：2024-03-19
2024年交流发言：强化思想理论武装,增强奋进力量（完整）
习近平总书记指出：“一个民族要走在时代前列，就一刻不能没有理论思维，一刻不能没有思想指引。”党的十八大以来，伴随着新时代中国特色社会主义思想在实践中形成发展的历程...

【三个代表】日期：2024-03-19
2024年度镇年度县乡人大代表述职评议活动总结
xx镇20xx年县乡人大代表述职评议活动总结为响应县级人大常委会关于开展县乡两级人大代表述职评议活动，进一步激发代表履职活力，加强代表与人民群众的联系，提高依法履职水平...

【马克思主义】日期：2024-03-19
“千万工程”经验学习体会（研讨材料）
“千万工程”是总书记在浙江工作时亲自谋划、亲自部署、亲自推动的一项重大决策，也是习近平新时代中国特色社会主义思想在之江大地的生动实践。20年来，“千万工程”先后经历...

【三个代表】日期：2024-03-19
2024年在市政协机关工作总结会议上讲话
同志们：刚才，XX同志对市政协机关20XX年工作进行了很好的总结，很精炼，很到位，可以感受到去年机关工作确实可圈可点。XX同志宣读了表彰决定，机关优秀人员代表、先进集体代...

【邓小平理论】日期：2024-03-18
在全区防汛防涝动员暨河长制工作推进会上讲话提纲【完整版】
区长，各位领导，同志们：汛期已经来临，我区城区防涝工作面临强大考验，形势不容乐观。年初，区城区防涝排渍指挥部已经召开专题调度会，修订完善应急预案，建立网格化管理机...

【马克思主义】日期：2024-03-18
2024年镇作风整治工作实施方案（完整文档）
XX镇作风整治工作实施方案为深入贯彻落实党的二十大精神及省市区委深化作风建设的最新要求，突出重点推进干部效能提升，坚持不懈推动作风整治工作纵深发展，根据《关于印发《2...

【毛泽东思想】日期：2024-03-18
2024市优化法治化营商环境规范涉企行政执法实施方案【优秀范文】
xx市优化法治化营商环境规范涉企行政执法实施方案为持续优化法治化营商环境，激发市场主体活力和社会创造力，规范行政执法行为，创新行政执法方式，提升行政执法质效，着力解...

【毛泽东思想】日期：2024-03-18
2024年度关于开展新一轮思想状况摸底排查工作通知（完整）
关于开展新一轮思想状况摸底排查工作的通知为深入贯彻落实关于各地开展干部职工思想状况大摸底大排查情况上的批示要求和改革教育第二次调度会议精神，有针对性做好队伍教育管...

【三个代表】日期：2024-03-18
2024年公路养护中心主任典型事迹材料（完整文档）
“中心的工作就是心中的事业”——公路养护中心主任典型事迹材料**，男，1976年6月出生，1993年参加工作，2000年4月调入**区交通运输局工作，大学本科学历，中共党员，现任**...

【马克思主义】日期：2024-03-17

最新文章