网站首页 公文大全 个人文档 实用范文 讲话致辞 实用工具 心得体会 哲学范文 总结范文 范文大全 报告 合同 文书 信函 实用
  • 汇报体会
  • 节日庆典
  • 礼仪
  • 毕业论文
  • 评语寄语
  • 导游词
  • 口号大全
  • 其他范文
  • 百花范文网 > 实用范文 > 其他范文 > 面向目标检测的对抗样本综述

    面向目标检测的对抗样本综述

    时间:2023-01-13 18:05:05来源:百花范文网本文已影响

    袁珑,李秀梅,潘振雄,孙军梅*,肖蕾

    1.杭州师范大学信息科学与技术学院,杭州 311121;
    2.福建省软件评测工程技术研究中心,厦门 361024

    随着计算机软硬件技术的不断发展,基于卷积神经网络的深度学习技术广泛应用于社会各个领域(LeCun等,2015),尤其在计算机视觉领域的图像分类(Deng等,2009)、目标检测(Liu等,2019a)、人脸识别(Liu等,2017)和语义分割(Ding和Zhao,2018)等方面更是取得了巨大成功。但由于深度学习自身的脆弱性,在一些应用场景容易受到对抗样本(adversarial examples)对模型的攻击(Athalye等,2018)。对抗样本最早在图像分类领域提出(Szegedy等,2014),比较典型的研究有FGSM(fast gradient sign method)(Goodfellow等,2015;
    Dong等,2018)、DeepFool(Moosavi-Dezfooli等,2016)和C&W(Carlini-Wagner)(Carlini和Wagner,2017)等。随着研究的不断深入,对抗样本不仅攻击图像分类,也开始攻击其他计算机视觉任务,如面部识别(Sharif等,2016;
    Liu等,2017)、视觉跟踪(Bertinetto等,2016;
    Yan等,2020)、语音识别(Du等,2020)和自然语言处理(Ren等,2019)等。

    作为计算机视觉的核心任务,基于深度学习的目标检测(曹家乐 等,2022)在人工智能领域扮演着越来越重要的角色,许多其他计算机视觉任务诸如人脸识别、目标追踪和图像分割都是基于目标检测实现的。因此目标检测的安全对计算机视觉的发展至关重要。Xie等人(2017)首次在目标检测和语义分割任务上证明,目标检测和图像分类都存在类似的安全性问题。对抗样本在目标检测领域的出现对目标检测器的鲁棒性提出了巨大考验。现有的对抗样本总结分析(Yuan等,2019;
    Akhtar和Mian,2018;
    潘文雯 等,2020)主要集中在图像分类领域,鲜有论文对目标检测领域的对抗样本生成方法及防御进行总结和分析。本文对目标检测领域的对抗样本生成和防御进行归纳总结,以期催生更多的防御策略,从而使未来的目标检测技术更加鲁棒,从容面对更复杂的环境。

    为了梳理面向目标检测领域的对抗样本生成方法及防御策略,首先,根据对抗样本扰动生成的范围,将对抗攻击分为全局扰动攻击和局部扰动攻击。在全局扰动攻击的基础上,根据攻击的目标检测器类别分为针对两阶段网络的攻击、针对单阶段网络的攻击以及两种网络均针对的攻击,并对目标检测的对抗样本生成方法进行总结和分析。然后,通过实验对典型的目标检测对抗样本生成方法的性能进行分析对比。接着,从预处理方法和提高模型鲁棒性两个角度介绍了目标检测领域应对对抗攻击的防御策略。最后,对面向目标检测的对抗样本研究面临的挑战和发展趋势进行展望。

    1.1 目标检测

    目标检测作为计算机视觉领域众多任务的基础一直是研究热点,它的任务是从给定的图像中提取感兴趣区域并标记出类别和位置。目前,随着深度学习神经网络的快速发展,基于深度学习的目标检测技术(Liu等,2020;
    Ding和Zhao,2018)凭借优越的检测性能已经取代了需要人工提取特征并分类的传统目标检测方法(Divvala等,2012;
    Wang等,2009;
    Viola和Jones,2004)。

    基于深度学习的主流目标检测算法根据有无候选框生成阶段分为以Faster R-CNN(region convolutional neural network)(Ren等,2015)为代表的两阶段检测和以YOLO(you only look once)(Redmon等,2016)为代表的单阶段检测。两阶段检测网络将检测物体分为两个阶段,先检测物体的位置然后进行分类。Girshick等人(2014)首次提出R-CNN算法,采用选择性搜索算法(Uijlings等,2013)从图像中提取候选框进而分类。但是R-CNN每一个候选框都需要进行特征提取,比较耗费时间。为此,Girshick(2015)设计了Fast R-CNN,对图像只提取一次特征,提高了检测速度。随后,Ren等人(2015)提出Faster R-CNN算法,用区域建议网络(region proposal network,RPN)代替传统的选择搜索算法,加快提取候选框的过程。

    与两阶段网络不同,单阶段网络不需要RPN而是直接将分类和定位一次完成。单阶段检测最具代表性的网络是YOLO系列网络(Redmon等,2016;
    Redmon和Farhadi,2017,2018;
    Bochkovskiy等,2020)和SSD(single shot multibox detector)网络(Liu等,2016)。2016年提出的YOLOv1通过舍弃候选框生成阶段加快网络检测速度,但是降低了精度。同年提出的SSD网络通过引入多尺度信息,在保持速度的同时提高了精度。YOLOv2和YOLOv3分别添加了多尺度信息和设计了更强的骨干网络DarkNet53以提高提取特征的能力。YOLOv4与YOLOv3相比,将骨干网络升级为学习能力更强的CSPDarknet(cross stage partial Darknet),在YOLOv3的特征金字塔网络(feature pyramid networks,FPN)基础上加入路径聚合网络(path aggregation network,PAN)(Liu等,2018)和空间金字塔池化模块(spatial pyramid pooling,SPP)(He等,2015)。此外,近几年提出了一类检测框架anchor-free。这类框架通过回归得到物体的关键点(例如左上角和右下角或者物体的中心点),进而得到边界框,这一类检测框架的代表网络有CornerNet(Law和Deng,2018)、ExtremeNet(Zhou等,2019b)、CenterNet(Duan等,2019)和Fcos(fully convolutional one-stage object detection)(Tian等,2019)等。

    1.2 对抗样本

    1.2.1 对抗样本的概念

    对抗样本由Szegedy等人(2014)首次提出。指在原本干净的数据集中,通过某种方式或遵循某种规律,向图像中加入一些细微的噪声(又称为扰动)形成的图像。在分类任务中,这类样本会使已经训练好的机器学习或者深度学习模型容易产生错误的分类结果。如图1(Goodfellow等,2015)所示,干净样本(左)通过人眼判断和模型输出的结果均为熊猫,但是添加对抗噪声后的图像送入模型则输出结果为长臂猿。对抗攻击前,模型输出熊猫的置信度为57.7%,将对抗样本输入模型后,得到99.3%的长臂猿高置信度。在目标检测任务中,这类样本则会使模型输出错误的分类和定位结果。图2(Xie等,2017)为目标检测对抗样本示例。对原始样本,Faster R-CNN能正确识别狗的类别和位置;
    而对对抗样本,在添加对抗扰动后,输出位置和分类都是错误的检测结果。检测器错误地检测出人和火车,却无法确定狗的存在,分类和定位都发生错误。

    图1 图像分类对抗样本示例(Goodfellow等,2015)

    图2 目标检测对抗样本示例(Xie等,2017)

    FGSM是最早提出的图像分类攻击方法(Goodfellow等,2015),该方法以简单的攻击思路和强大的攻击效果成为对抗攻击领域最为经典的方法之一。后续的许多方法都是在此方法的基础上做出改进,增强了攻击的稳定性。例如,将一步运算变成多步迭代的I-FGSM(iterative-FGSM)(Kurakin等,2017)和在迭代过程中加入动量的MI-FGSM(momentum iterative-FGSM)(Dong等,2018)等。除了FGSM系列,经典的对抗攻击方法还有C&W攻击(Carlini和Wagner,2017)、ATN(adversarial transformation networks)(Baluja和Fischer,2017)、单像素攻击(Su,2019)、通用对抗扰动(universal adversarial perturbations,UAP)(Moosavi-Dezfooli等,2017)和AdvGAN(adversarial GAN)(Xiao等,2018)等。

    1.2.2 对抗样本的产生原因

    自Szegedy等人(2014)提出对抗样本以来,对其产生原因至今仍未有统一看法,以下是国内外学者比较认可的几个观点。Szegedy等人(2014)认为对抗样本存在于数据流中的低概率(高维)区域,模型训练过程中只学习到了训练数据周围的局部空间,而对抗样本不处于模型训练这一局部空间,所以会使模型最后判断错误。Goodfellow等人(2015)提出了与Szegedy完全相反的意见,认为正是因为神经网络模型的高维线性导致了对抗样本的产生,当在输入图像中加入少量噪声后,该细微噪声经过多层网络的传播,经过如ReLU或Maxout的线性激活函数后被无限放大,导致分类错误。Ilyas等人(2019)指出对抗样本不是缺陷,它反映的更近似是一种特征。通常认为,模型训练会选择一些人类可以理解的特征进行分类,这些特征称为健壮性特征;
    但也会选择一些人类无法理解的其他特征用于区分目标,这类特征称为非健壮性特征。对抗样本归因于非健壮性特征的存在,反映了数据的一种特征,具有高度可预测性,但这种特征是脆弱的且难以被人类理解。这类特征通常认为是模型训练的异常结果,对抗样本就是这类特征的代表。

    1.2.3 对抗样本的相关术语

    下面给出本文用到的对抗样本的相关术语。

    1)对抗性扰动。指添加到干净样本使其成为对抗样本的噪声,一般对这种扰动有大小限制,使添加到图像上的扰动不被人眼察觉。

    2)迁移性。指生成的对抗样本在不同模型、不同数据集上的攻击能力。

    3)白盒攻击。指攻击时攻击者对攻击的目标模型内部的结构和参数都了解。

    4)黑盒攻击。相对于白盒攻击而言,指攻击者对攻击模型的结构和参数等一切内部数据都未知。

    5)欺骗率。指对抗样本进入模型以后,愚弄模型的对抗样本所占百分比。

    6)目标攻击。指对抗攻击算法生成的对抗样本,能使模型将样本分类到攻击者想要的指定类别的攻击方式。

    7)非目标攻击。不同于目标攻击,指攻击者生成的对抗样本使模型输出错误的分类结果,但不限制其错误类别。

    1.3 目标检测的对抗样本

    基于深度学习的目标检测在继承神经网络优点的同时,也容易遭受到对抗样本的攻击,这使得目标检测在实际使用时具有一定的安全隐患。由于目标检测不仅包含图像分类,还包含对目标定位,所以图像分类上的对抗攻击方法用在目标检测上效果较差,甚至绝大多数情况会攻击失败(Lu等,2017)。目标检测是经典的多任务学习,对其进行攻击往往是根据目标检测所要达到的两个目标,即位置和类别来进行的。针对攻击方法的损失函数设计分为单损失攻击和组合损失攻击。单损失攻击在生成对抗样本时对物体进行分类损失函数攻击或者回归损失函数攻击,而组合损失攻击则综合考虑了两种损失函数来进行攻击。

    基于对抗样本的目标检测攻击通过对输入图像x加入特定的扰动,得到扰动图像x′,并将其作为目标检测器的输入,旨在欺骗目标检测器生成随机或有目标的错误结果,其过程可以表示为

    (1)

    2.1 相关数据集

    目标检测中常用的数据集主要有:

    1)PASCAL VOC(pattern analysis, statistical modeling and computational learning visual object classes)数据集。这是目标检测领域最常用的数据集之一,由于其轻量性,广泛应用于目标检测、图像分类和图像分割任务。数据集包含20个类别的物体,分为4大种类,每幅图像都有相应的XML(extensible markup language)文件对应,文件包含图像物体的位置和类别。常用的PASCAL VOC数据集有VOC2007(Everingham等,2010)和VOC2012(Shetty,2016)。其中,VOC2007数据集包括9 963幅图像,由train、val和test组成。VOC2012数据集包括11 530幅图像,由train和test两部分组成。现在常用的训练方法有两种。一种是使用07_train+12_train作为训练集,用07_test作为测试集;
    另一种是使用07_train+07_test+12_train作为训练集,用12_test作为测试集。

    2)MS COCO(Microsoft common objects in context)数据集(Lin等,2014)。该数据集发布于2014年,是目标检测、语义分割和人体关键点检测任务较为权威的重要数据集,包括91个物体类别、328 000幅图像和250万个标签,使用JSON(JavaScript object notation)格式的标注文件给出每幅图像中目标像素级别的分割信息。数据集共包含80个对象类别的待检测目标,目标间的尺度变化大,具有较多的小目标物体。

    3)ImageNet数据集(Russakovsky等,2015)是计算机视觉领域的一个大型数据库,广泛应用于图像分类和目标检测等任务,包括1 400多万幅图像,2万多个类别。其中103万幅图像可以用于目标检测任务,包含200个物体类别,有明确的类别标注和物体的位置标注。

    4)Open Image数据集(Kuznetsova等,2020)是谷歌团队发布的具有对象位置注释的现有最大的数据集,包含190万幅图像,600个种类,1 540万个边界框标注。

    2.2 评价标准

    目标检测领域通常采用mAP(mean average precision)(Shetty,2016)衡量对抗样本的攻击效果。mAP为所有类别的平均精确率的均值,是衡量目标检测器检测效果最重要的一个指标。具体为

    (2)

    式中,m为类别数目,APi表示第i类物体的AP(average precision)值。平均准确率AP为固定类别的精确率—召回率曲线下的面积和,表示检测器对该类别的检测能力,值越大代表检测器对该类物体的检测效果越好。

    除了用mAP衡量模型的检测能力外,评价指标还包括精确率和召回率。

    精确率(precision)表示分类正确的正样本个数与分类后判别为正样本个数的比值,衡量的是一个分类器分出来的正样本确实是正样本的概率。

    召回率(recall)表示分类正确的正样本数与真正的正样本数的比值,衡量的是一个分类器能将所有的正样本都找出来的能力。在通常情况下,精确率越高,则召回率越低。

    Lu等人(2017)提出在“停止”标志和人脸图像上添加扰动来误导相应的检测器,这是第一篇在目标检测领域提出对抗样本生成的文章。此后,出现了一系列针对目标检测的分类和定位两个任务进行对抗攻击的研究。根据对检测目标像素修改的数量,对抗攻击分为全局扰动攻击和局部扰动攻击。根据攻击的对象检测器类型,对抗攻击可以分为针对两阶段检测器的攻击、针对单阶段检测器的攻击以及针对两种检测器的攻击。

    对于面向目标检测的对抗攻击方法,本文以全局像素攻击和局部像素攻击作为一级分类,以不同的目标检测器类型攻击作为二级分类。分类方法如图3所示。

    图3 面向目标检测的对抗样本生成方法分类

    3.1 全局扰动攻击

    全局扰动攻击是在对抗样本生成时对整幅图像进行像素修改,添加的噪声具有一个统一特点,即添加的噪声不是特定于一个地方而是遍布全图。

    3.1.1 针对两阶段网络攻击

    针对两阶段网络攻击的方法主要有DFool(detectors fool)、DAG(dense adversary generation)、ShapeShifter、RAP(robust adversarial perturbation)和CAP(contextual adversarial attack)方法。

    1)DFool方法。这是Lu等人(2017)提出的一种针对Faster R-CNN的白盒攻击方法,用Faster R-CNN对所有的停车标志进行得分测试。

    (3)

    式中,T表示图像I在根坐标系的纹理特征,I(Mi,T)表示对图像I使用映射Mi在T上进行叠加产生的特征,BS(I)是图像I在Faster R-CNN产生的关于停车标志物体的候选框集合,φs(b)是Faster R-CNN对候选框的预测得分。通过最小化训练集所有图像的平均得分对式(3)进行优化,提取梯度。在优化过程中,使用符号函数进行梯度的引导,并且通过多次迭代,当欺骗率达到90%时停止迭代。具体过程为

    T(n+1)=T(n)+ε×d(n)

    (4)

    2)DAG方法。Xie等人(2017)将对抗样本从图像分类扩展到更加困难的语义分割和目标检测,针对两阶段检测器的分类损失函数提出DAG白盒攻击。考虑到两阶段检测器是通过RPN筛选含有物体的建议框,提出在一组像素点集或目标候选框集上优化目标任务损失函数进行攻击的方法。将攻击的目标放在感兴趣区域(region of interest,RoI),其攻击表达式为

    (5)

    式中,Xm代表第m次迭代得到的图像,初始化为输入的图像,f(·)代表目标检测器生成结果的函数,tn为输入图像的Tm个目标中的一个,ln代表该物体的正确类别,l′n代表指定的错误标签,rm是求得的对抗梯度,αDAG为迭代学习率。

    DAG的整个攻击思路为:首先对输入网络中的图像X,为其中的每个目标tn随机指定一个标签作为要攻击的目标,该标签不同于目标的真实类别。接着进行迭代攻击,并在每次迭代中找出网络中仍然预测正确的RoI区域继续迭代。通过反向传播提高错误类别的得分,经过计算目标函数关于输入图像的梯度,通过L∞将梯度进行归一化后将梯度进行累计,直到达到最高迭代次数或者所有正样本均预测错误,停止迭代。

    DAG方法属于分类损失的单损失攻击,通过为目标设置一个非正确的标签,然后迭代朝着类别置信度低的方向进行移动,最终使检测器对输入图像的所有RoI都分类错误。从攻击的原理来看属于分类损失攻击,从攻击造成的结果来看属于目标分类错误攻击。

    3)ShapeShifter方法。这是Chen等人(2019)提出的针对Faster R-CNN的第1个有目标的攻击方法。受图像分类对抗攻击方法C&W(Carlini和Wagner,2017)和期望转换(expectation over transformation,EOT)(Brown,2017)的启发,对Faster R-CNN进行攻击。在图像分类中,C&W通过优化的方式对图像进行有目标攻击,ShapeShifter结合C&W的L2攻击方式,具体攻击为

    (6)

    式中,LF为模型输出和目标标签y′的损失函数,通过tanh将像素约束在[-1, 1]之间,便于优化,用c控制修改后的图像x′和原图xo之间的差距。

    在C&W基础上加上EOT,期望变换就是在每次迭代过程中添加随机扰动,使加入的扰动更具有鲁棒性,操作方式为

    Mt(xb,xo)=t(xb)+xo

    (7)

    式中,t表示平移、旋转或者缩放操作,xo为目标图像,xb为背景图像。对目标图像xo进行t操作后加入到背景图像xb。

    Chen(2019)对Faster R-CNN第1阶段得到的多个区域建议提取其覆盖的子图像,然后对子图像进行分类,得到所有区域建议的分类损失,并且在迭代过程中利用EOT增强扰动的鲁棒性。

    (8)

    式中,x′为修改后的对抗样本,y′为攻击指定的目标类别,xo为干净图像。通过优化式(8),同时攻击每个建议区域的所有分类。优化过程往往先通过RPN提取区域建议,并对区域建议进行修剪,在目标检测器第2阶段分类过程中进行式(8)的优化。

    4)RAP方法。Li等人(2018a)针对两阶段目标检测模型提出的一种更为鲁棒的对抗性扰动生成算法,核心是通过破坏两阶段模型中特有的RPN网络对检测器进行攻击,设计了一种将分类损失与位置损失结合在一起的损失函数,使用基于梯度的迭代算法对图像进行优化,具体为

    (9)

    计算网络预测的实际偏移量与人为指定的较大的偏移量之间的差值,将其作为损失函数,进行反向传播修改输入的图像,使最后网络预测的偏移量与真实偏移量之间产生很大的差距。

    RAP方法设计了一个同时包含位置损失函数和分类损失函数的组合损失函数,通过降低RPN网络得到的建议框置信度,使目标检测器将图像中的物体分类为背景,达到无法识别目标的目的。针对修改后仍然能识别出来的图像,又通过干扰其位置参数,使网络错误地定位该物体的正确位置,以此进行攻击。

    5)CAP方法。这是Zhang等人(2020)针对两阶段检测器提出的非目标攻击的方法。CAP将分类损失和位置损失作为联合损失。在此基础上,又加入上下文损失。Zhang等人(2020)考虑到图像中相邻像素的强相关性,发现候选区域的周边区域对目标检测器的定位和分类具有指导作用,将这块区域称为上下文区域。与单一候选区域相比,Zhang等人(2020)提出的上下文区域具有更高的特征性,训练时能够极大地捕捉图像中物体的强特征,并对这些特征添加噪声,使攻击效果更好。具体为

    (10)

    3.1.2 针对单阶段网络的攻击

    针对单阶段网络的攻击方法主要有PhyAttack、CA(category-wise attack)和Daedalus方法。

    1)PhyAttack方法。这是Song等人(2018b)提出的针对YOLOv2检测器的物理攻击方法。受图像分类领域的物理攻击RP2(robust physical perturbations)(Evtimov等,2017)的启发,在RP2基础上加入额外的对抗性损失函数,通过概率最小化式(11)降低图像中标志的得分,使检测器无法检测到停车标志。

    (11)

    式中,fθ(x)是检测器对图像x的输出,s是YOLO网络单元格,b是物体的检测框,y是该物体对应的标签,P(·)是用来从张量中提取对象类的概率。

    同时,Song(2018b)设计出creation attack,使目标检测器检测出不存在的物体。通过设计一个指定的位置,对该位置进行迭代优化,提高边框的置信度得分,使分类器将该位置分为前景区域,随后对位置之后的分类步骤提高类别概率,具体为

    object=Pbox(s,b,fθ(x))>τ

    Jc(x,y)=object+(1-object)·P(s,b,y,fθ(x))

    (12)

    式中,object为筛选出来的建议框位置,τ为边框置信度阈值,当超过该阈值时停止对位置进行优化,P(s,b,y,fθ(x))代表网格单元s中含有的边框b属于类别y的概率,Pbox(s,b,fθ(x))为网格单元s含有的边框b属于前景区域的置信度值。

    2)CA方法。这是Liao等人(2020)首次针对anchor-free(Zhou,2019a)目标检测模型提出的非目标攻击的方法。anchor-free模型将目标检测经典模型特有的anchor删去,从而减少网络参数,加快训练速度,并且能极大地减少背景误检率。CA通过寻找重要的像素区域,利用其高级语义信息对检测器进行类别攻击。CA有L0和L∞两种优化方式,具体为

    argmaxn{fn(x+r,p)}≠Ck

    tmin≤x+r≤tmax

    (13)

    式中,r是对抗扰动,k代表检测到的物体类别,Pk为CenterNet得到的包含类别Ck的热力图,p为热力图中得分大于阈值tattack的像素点,argmaxn{fn(x+r,p)}表示第n次迭代对抗样本中像素p预测的类别。

    对于L0范数的攻击,Liao(2020)受图像分类的对抗攻击方法DeepFool(Moosavi-Dezfooli等,2016)和 SparseFool(Modas等,2019)的启发,提出ApproxBoundary方法来近似目标检测器的决策边界,使原始图像朝着垂直于决策边界的方向一步步移动,生成较为稀疏的扰动来欺骗目标检测器,这种L0范数攻击称为稀疏类别攻击(sparse category-wise attack,SCA)。考虑到目标检测与图像分类的区别,SCA选取总概率最高的Pk来生成局部目标像素集,然后用改进后的DeepFool算法进行攻击,直到对原始图像所有对象攻击成功为止。

    对于L∞范数的攻击,Liao(2020)学习图像分类的对抗攻击PGD(project gradient descent)(Madry等,2018)思想,沿着图像梯度的方向分步迭代生成攻击样本。这种L∞范数攻击称为密集类别攻击(dense category-wise attack,DCA),首先计算图像中每个类别的像素的损失,并将损失求和。具体为

    (14)

    式中,CE为交叉熵损失,Pj为图像中j个类别对应的像素集,Cj为图像预测的第j个类别。对获得的损失求取梯度,然后用L∞范数对求得的梯度进行归一化处理后得到扰动。具体为

    (15)

    式中,rj表示图像xi上对所有物体像素计算的损失之和,r′j为用L∞范数对rj进行标准化后的对抗梯度。

    3)Daedalus方法。这是Wang等人(2021)提出的一种破坏YOLO组件的攻击方法,通过破坏YOLO的非极大值抑制(non maximum suppression,NMS)机制,使检测器产生误报等错误的结果。NMS是目标检测至关重要的组成部分,主要目的是消除冗余建议框,并确定物体的最佳位置。Daedalus攻击的优化计算为

    arg min|δ|p+c·f(x+δ)

    s.t.x+δ∈[0,1]n

    (16)

    式中,δ是添加的扰动,要求扰动的Lp范数最小,以保证其肉眼的不可见性,f是定义的对抗性损失函数,c为平衡对抗损失和失真的超参数。

    为了解决使生成的对抗样本像素值限制在[0,1]这样一个盒约束问题,采用C&W方法,将变量δ替换成ω,具体为

    (17)

    式中,x为输入的原图,δ为计算的加入扰动,对于整个公式,需要得到的就是导致扰动的变量ω,通过加入tanh使值保持在[-1,1],便于迭代优化。

    对于对抗性损失函数f,设计了3种不同的损失函数:1)最小化各建议框的IoU(intersection over union)值;
    2)使所有建议框尺寸缩小,且最大化各建议框中心之间的欧几里得距离;
    3)为了节省成本,只缩小各建议框的尺寸。3种损失函数的计算分别为

    (18)

    (19)

    (20)

    Daedalus攻击的核心是使NMS失效,通过破坏NMS的筛选机制达到破坏的目的。设计的损失函数结合C&W算法使生成的对抗样本在攻击性和迁移性方面都有不错表现,但是也结合了C&W方法的缺点,即生成对抗样本的时间成本很高,生成一个有效的对抗样本需要进行上千次迭代,这也是未来需要改进的地方。

    3.1.3 针对两种检测器的攻击

    针对两种检测器的攻击方法主要有UEA(unified and efficient adversary)、G-UAP(generic universal adversarial perturbation)和TOG(targeted adversarial objectness gradient attacks)方法。

    1)UEA方法。目标检测领域内对抗样本的生成,都需要将图像输入到网络,通过神经网络的前向传播获得需要的数据,然后根据设计的损失函数进行反向传播调整网络输入,这需要耗费一些时间来生成对抗样本。而且生成的对抗样本在Faster R-CNN表现很好,但是在YOLO网络上效果却很差,其攻击的迁移性较差。针对这两个问题,Wei等人(2019)提出了UEA方法。通过引入对抗生成网络(generative adversarial networks,GAN)(Isola等,2017),将GAN网络结合高级分类损失和底层特征损失来进行训练生成对抗样本。通过引入GAN网络的生成器和判别器,由生成器生成进入目标检测的对抗样本,然后由判别器区分输入的图像是对抗样本还是干净图像。GAN的损失函数为

    LcGAN(G,D)=EI[logD(I)]+

    EI[log(1-D(G(I)))]

    (21)

    式中,G是生成器,D是判别器,I是输入的图像。为了衡量生成的对抗样本和原始样本的差别,G(I)表示对图像I生成的噪声,引入L2loss衡量它们的相似性,具体为

    (22)

    为了同时攻击两种类别的检测器,Wei(2019)提出在GAN网络中加入DAG方法提出的损失函数,用来攻击以Faster R-CNN为代表的基于建议的目标检测器,具体为

    (23)

    为了增加对抗样本的可迁移性,攻击基于回归的目标检测器,提出多尺度注意力特征损失,具体为

    (24)

    式中,“∘” 表示两个矩阵之间的哈达玛(Hadmard)积。Xm表示目标检测器的骨干网络第m层提取的特征子图,Rm是一个随机预定义的特征图,在训练过程中固定。Am是根据RPN的建议区域计算出的注意力权重,是两个矩阵的Hadmard乘积。特征图的损失函数将注意力特征图强制为随机排列,从而更好地操纵前景区域的特征图。

    最后的损失函数为以上4种损失函数的组合,即

    L=LcGAN+αLL2+βLDAG+εLFea

    (25)

    式中,α,β,ε为每种损失函数所占的比重。

    由于UEA是通过训练一个GAN来生成针对目标检测器的对抗样本,是通过生成机制代替传统的攻击算法的优化过程,是一个前向机制,省略了反向传播过程,所以生成样本的时间更少,损失函数中添加了多尺度的注意力特征损失,对骨干网络特征图进行多层提取,并对前景区域部分的特征区域进行重点关注,在训练过程中进行更好的学习,使最后的对抗样本具有更佳的迁移性。

    2)G-UAP方法。G-UAP(Wu等,2019)是一种在UAP(Moosavi-Dezfooli等,2017)基础上改进、扩展到目标检测领域的黑盒攻击方法。G-UAP方法通过攻击RPN网络,将攻击思路简化为一个二分类问题,即诱导RPN网络将前景物体误认为背景,通过优化式(26)寻找到通用扰动。

    (26)

    式中,δ为生成的扰动,l代表前景的标签。式(26)等号右侧前半部分代表图像中前景的得分概率,后半部分为背景的得分概率。为了误导前景变为背景,使l为0,式(26)变为

    (27)

    通过最小化式(27),降低图像中所有物体的前景置信度得分,增加背景置信度得分。

    G-UAP选择一批图像,然后累计每个图像得到的扰动,将扰动作为网络的特征映射,用雅克比矩阵表示,这样可以从一批图像中学到通用的扰动以欺骗更多的样本。

    3)TOG方法。对两阶段检测器Faster R-CNN设计的对抗攻击方法往往通过攻击两阶段网络特有的组件RPN网络来欺骗检测器。Chow等人(2020a)提出的基于迭代的TOG方法可以同时攻击两阶段和单阶段两种目标检测器,TOG方法根据最后的攻击效果分为目标消失攻击、伪造标签攻击和分类错误攻击3类。TOG方法通过逆转训练过程,固定网络参数,每次反向传播时修改输入的图像,通过迭代生成对抗样本,迭代直到攻击成功或达到阈值停止,整体为

    (28)

    目标消失(vanish)攻击使目标检测器无法定位和识别任何物体。通过攻击目标检测器的Lobj损失函数,该函数是检测图像中是否存在物体的损失函数,在Faster R-CNN是RPN的置信度得分,在YOLO网络代表网格的物体置信度得分。设置O(x)=∅,使目标检测器将目标划为背景区域,从而使检测器检测不到任何物体,具体为

    (29)

    伪造标签(fabrication)攻击通过引入大量的伪造对象来增加目标检测的对象数量,达到攻击目标检测器的目的,具体为

    (30)

    式(30)与式(29)的区别在于式(29)是将前景换为背景区域,而目标伪造是使更多的背景区域变为前景,使所有的建议框或网格远离空标签。

    目标分类错误(object-mislabeling)攻击使目标检测器对在输入图像上检测到的对象进行错误的分类。具体做法是对检测出来的对象进行分类时,用选定的目标类别代替原来的标签进行反向传播,得到对抗梯度,修改图像,使检测器虽然检测出来物体,但是分类错误,具体为

    (31)

    式中,O*表示错误的类别标签。

    因为TOG不是针对目标检测器的特有结构(例如RPN)设计的,而是从目标检测多任务角度进行攻击,所以可以为不同种类的目标检测器生成对抗样本。

    3.2 局部扰动攻击

    与全局扰动攻击需要针对全像素进行攻击的方法不同,局部扰动攻击只在原始图像的一个区域内添加扰动,使该区域的扰动能影响全图,达到欺骗目标检测器的目的。主要方法有Bpatch、Dpatch、EA(evaporate attack)和Adversarial-YOLO方法。

    1)Bpatch方法。这是Li等人(2018a)率先提出的针对两阶段检测器的局部进行扰动攻击的方法,通过在图像目标之外的背景上添加扰动块来攻击目标检测器。BPatch也是针对两阶段检测器中特有的部件RPN(区域提议网络)进行攻击。由于RPN网络会生成大量包含候选框的候选区域,下一阶段的网络会针对RPN网络生成的候选框按照置信度进行排列,将高于置信度阈值的候选框挑选出来进行下一阶段的分类和位置回归。BPatch针对RPN网络的筛选机制提出了攻击思路,通过降低RPN层得到的高置信度候选区的置信度,使得最后送入下一层网络的候选框少包含甚至不包含前景目标。

    BPatch补丁也是一种通过对损失函数优化来生成对抗扰动的方法,公式包含3种损失函数:1)真阳性置信度损失(true positive confidence loss,TPC),该项损失的目的是降低包含图像目标区域候选框的置信度,从而无法提取正确的候选框进入下一层网络;
    2)真阳性形状损失(true positive shape loss,TPS),该项损失是对目标的位置进行攻击,目的是使最后物体的位置定位是不精确甚至错误的;
    3)假阳性置信度损失(false positive confidence loss,FPC),目的是提高背景区域的置信度,将背景补丁附近的区域选中送入RPN网络的下一层网络。通过这3个损失函数降低真实候选框的置信度,提高背景区域假候选区域的置信度,最后达到攻击目标检测的目的。

    BPatch损失函数具体计算为

    Lfpc(I(Q);F) s.t.fPSNR(I(Q))≥ε

    (32)

    式中,Ltpc,Lshape,Lfpc为上面提到的3个损失,I(Q)为加入补丁Q的图像I,F为已经训练好的RPN网络,ε为峰值信噪比的下限。

    TPC损失具体计算为

    (33)

    式中,Sj表示第j个候选区域的置信度得分;
    Zj为权重,当第j个候选区域与任意标签比较,得到的IoU大于阈值(一般为0.5),且该候选框的置信度大于阈值(一般为0.1)时,令Zj= 1,否则Zj= 0。

    TPS损失具体计算为

    (34)

    FPC损失函数定义为

    (35)

    当第j个候选框与背景补丁Q的IoU>0.3且与任意的真实矩形框的IoU=0时,就选择该候选框进行优化,令rj=1,否则,令rj=0。通过优化式(35)提高背景补丁的置信度,使RPN网络给下一层网络输出更多的包含背景区域的候选框,导致检测失败。

    2)Dpatch方法。这是Liu等人(2019b)提出的针对目标检测器的目标攻击方法,核心是生成一个patch,然后将该patch当做一个GT(ground truth)检测框,通过反向传播使网络直接优化该patch。因此,当分类损失和回归损失都收敛的情况下,只会产生一个检测框,即patch的坐标和类别。DPatch可以针对Faster R-CNN和YOLO系列网络的特点同时进行攻击。

    针对Faster R-CNN两阶段检测网络,攻击思路是使其RPN网络无法生成正确的候选区域,使DPatch所在的区域成为唯一有效的RoI,而忽略其他可能的候选区域。

    针对YOLO单阶段网络,核心要素是边界框预测和置信度分数。图像中的每个网络都可以预测边界框和这些边界的置信度分数。这些置信度得分反映了该边界框包含一个对象的概率以及该边界框的准确性。如果置信度得分相对较低,则由网格预测的边界框视为不包含真实对象。同样,攻击YOLO时,应将DPatch所在的网格视为对象,而其他网格则应忽略,即包含DPatch的网格比其他具有普通对象的网格具有更高的置信度得分。

    DPatch方法受谷歌对抗补丁(Brown等,2017)的启发,通过类比图像分类的patch,得

    (36)

    (37)

    在目标攻击中,DPatch还可以提前指定想要攻击的目标类标签yt和边界框标签Bt,通过反向传播最小化损失函数。具体为

    (38)

    对于非目标攻击,DPatch将图中的目标标签设置为0,即将其训练为背景。DPatch方法易受patch的大小影响,一般patch选的越大,攻击的成功率也就越大,相应的扰动的像素也就越多。

    3)EA方法。目标检测攻击的绝大部分算法,诸如DAG、RAP,它们生成对抗样本的本质是通过损失函数进行优化得到,导致它们只能攻击白盒目标检测模型。对于未知的黑盒模型,其攻击效果不尽人意。针对这种情况,Wang等人(2020)提出一种基于粒子群优化的黑盒攻击方法——EA方法。这种方法仅利用模型预测的位置和标签信息来生成对抗样本。该算法将对抗样本的生成看做式(39)的优化。

    minL(x′)=d(x′,x)-δ(D(x′))

    (39)

    式中,d(·,·)是距离度量,在此将距离度量通过L2范数进行实例化;
    δ(·)是对抗标准,如果满足攻击标准则取0,否则取负无穷;
    D代表目标检测模型。该方法首先向图像中添加随机噪声来生成初始图像粒子群,图像粒子的初始化计算为

    x′i=x+ε×z

    s.t.z%N(0,δ2C),δ(x′i)=0

    (40)

    式中,x为原始图像,z是随机生成的高斯噪声,ε为限制噪声的超参数,C表示正态分布中的样本种类,δ(·)表示对抗标准,如果扰动图像使检测器错误,则取0,否则取1。将添加了随机扰动的图像作为初始粒子x′i,计算粒子群的适应度值。在满足对抗要求的情况下,图像粒子与原始图像的距离越小,适应度值就越大。

    Wang(2020)修改了传统的PSO(particle swarm optimization)算法(Kennedy和Eberhart,1995)的速度迭代公式,为了使生成的图像和原始图像尽可能相似,加入了最佳像素位置(Ubest)来引导粒子接近原始图像。同时,为了避免传统PSO易陷入局部最优问题,在速度迭代公式中添加高斯噪声。攻击分为两个阶段。第1阶段的粒子群移动方式为

    pv=μ1×E+μ2×z×(Pbest-x)+

    μ3×z×(Gbest-x)+μ4×(Ubest-x)+μ5×z

    (41)

    式中,μ1为初始权重因子,μ2和μ3为初始化学习因子,μ4为原始图像投影的权重,μ5为高斯噪声的权重,Pbest为粒子个体的历史最优值,Gbest为粒子群全局最优值。第2阶段当粒子已经很接近目标则开始变慢速度,去除式(41)第2项,使粒子稳定地向前移动,直到达到迭代次数或者达到全局最优解,最终得到对抗样本。

    4)Adversarial-YOLO方法。这是Thys等人(2019)设计的一种基于YOLO网络的肉眼可见的对抗样本生成方法。该方法生成的对抗样本可以欺骗基于YOLO的行人检测,使其无法检测到人的存在。这种方法在数字世界和物理世界都有较强的攻击效果。在数字世界,为了使生成的样本具有攻击性,需要最小化检测器输出的对象的类损失Lobj。为此,设计了3种Lobj:1)将类标签为人的网格误导成其他种类;
    2)最小化物体的置信度得分;
    3)前两者的结合。实验证明,设计的第2种损失的效果最好(Thys 等,2019)。

    同时,为了使生成的对抗样本可以转移到物理世界,加入了打印损失Lnps,具体为

    (42)

    式中,ppatch为patch的像素,Cprint是一组可打印出来的颜色C中的一种颜色。为了使优化过程中patch的色彩过渡更为平滑以及防止噪声图像,提出了第3种损失Ltv,具体为

    (43)

    式中,pi,j代表像素点。如果图像中相邻像素相似,则分数较低,反之,则分数较高。将以上3部分损失合并,得到最终的总损失,通过优化总损失得到对抗样本。最终的总损失为

    L=αLnps+βLtv+Lobj

    (44)

    3.3 对抗攻击方法总结

    为了便于了解各种目标检测对抗样本生成方法的特点,表1对每种方法进行了简要总结。同时根据是否知道模型内部参数、是否属于定向攻击、主要攻击的检测器类型、损失函数的设计等6个方面对上述提到的对抗攻击方法进行总结分析,如表2所示。从表1和表2可以看出,自Lu等人(2017)提出DFool攻击以来,面向目标检测的对抗样本生成技术的发展具有以下几个规律:

    表1 对抗攻击方法描述

    表2 对抗攻击方法总结

    1)攻击形式多样化。主要体现在3个方面。(1)攻击效果多样化。最开始的攻击方法如DAG,攻击效果是使目标检测器对检测到的物体进行错误的分类。随着越来越多攻击方法的提出,造成的攻击效果不仅包含分类错误,还有使图像中的物体无法检测到、使检测到的物体错误分类、使检测到的物体的检测框错误、使图中出现许多未知标签等。可以看出,现在提出方法的攻击效果越来越多样化。(2)攻击损失函数更加多样化。由单一的分类损失变为分类损失结合回归损失的联合损失函数,有些方法在联合损失函数基础上,还加入背景损失、上下文损失函数,使生成的对抗样本更具有攻击性。(3)目标检测的对抗攻击不仅包含全局扰动攻击,也包含以patch为主的局部扰动攻击。全局扰动攻击和局部扰动攻击各有优缺点,分别适应不同场景。全局扰动攻击的扰动攻击全局,扰动分散不易察觉,而以补丁为主的局部攻击,常常延伸到物理世界,将对抗补丁做成贴纸或图案,以此实现物理世界的端到端攻击。

    2)攻击对象更丰富。面向目标检测的对抗攻击对象既包括以Faster R-CNN为代表的两阶段检测器,也包括以YOLO为代表的单阶段检测器,此外也开始出现针对无锚框(anchor-free)(Huang等,2015)的新型检测器的研究,例如上文对CenterNet攻击的CA算法。值得注意的是,目前的方法大多数是攻击两阶段检测器。因为相比于单阶段检测器,两阶段检测器检测精度更高,更难攻击,因此大多研究更关注于攻击Faster R-CNN。

    3)白盒攻击普遍,黑盒攻击鲜有。本文提及的方法中,黑盒攻击方法仅有3种。这是因为目标检测相比于图像分类,网络更深,提取特征的能力更强。不仅可以进行图像分类,还可以用上下文信息对图像分类的结果进行纠正。因此目标检测对对抗样本的“免疫力”大幅高于图像分类,如果不了解模型内部的参数,很难构造出具有较强攻击性的对抗样本。这也造成了目标检测领域的黑盒攻击方法鲜有的现象。因此,如何设计出有效的黑盒攻击方法在未来是一个值得关注的方向,值得进一步探讨。

    选取全局扰动攻击中有代表性的DAG、RAP、UEA和TOG方法,其中TOG包括3个子策略,共6种攻击方式进行对比实验。选择的数据集为PASCAL VOC,其中训练集为VOC 2007 + VOC 2012的全部训练图像,测试集选择VOC 2007的全部测试图像。选择Faster R-CNN模型作为攻击的目标模型。首先采用干净样本训练Faster R-CNN,用训练好的模型在测试集上进行测试。以mAP为评价指标,mAP越大,说明检测器对数据集的检测效果越好。表3为Faster R-CNN的正常训练结果,经过13次迭代后,mAP达到70.1%,超过了Faster R-CNN论文中的效果,用此检测器测试不同的攻击方法。将测试集通过6种攻击方法生成对抗样本,然后用训练好的Faster R-CNN进行检测,实验结果如表4所示。

    表3 Faster R-CNN正常训练结果

    表4 不同方法在PASCAL VOC 2007测试集上攻击的AP结果

    表4给出了6种对抗样本生成方法对PASCAL VOC测试集中20个小类的检测情况。第2列是攻击前的检测精度AP,第3—8列是6种对抗样本生成方法攻击后的检测精度。最后一行是20个小类AP的平均值,即mAP值。从表中可以看出,20个小类的样本受不同方法攻击前后AP值的变化。这些方法均能够有效攻击Faster R-CNN检测器,但不同攻击方法的攻击强度不同。TOG作为最新的一种攻击方法,攻击效果最好,TOG的3种子策略都优于其他3种算法,尤其是TOG-消失,几乎使整个测试集的AP下降到0。

    4.1 攻击效果分析

    实验选择Faster R-CNN为测试模型,分别从攻击强度、攻击所需要的时间以及生成的扰动大小3个角度对上述6种攻击方法进行分析。

    攻击强度用攻击成功率(attack success rate,ASR)评估,表示攻击前后mAP的变化情况,定义为

    (45)

    式中,mAPclean代表攻击前的检测器的mAP,mAPattack为攻击后的检测器的mAP,ASR越高代表攻击越强。

    攻击算法的时间成本为整个测试集所有对抗样本生成时间除以图像数量求得的平均值。

    生成的扰动大小是指生成的对抗样本图像与原始图像的差距。实验使用对抗样本中较常用的L2范数衡量扰动的程度。

    表5是6种对抗样本生成方法在攻击强度、攻击所需要的时间以及生成的扰动大小3个方面的表现。从攻击强度看,3种TOG方法的攻击成功率比其他3种方法好,UEA的攻击成功率最差。从对抗样本生成时间看,UEA的生成时间是最快的,这是因为UEA算法已经训练好了一个GAN网络,生成对抗样本的过程只涉及前向传播,而其他方法均需通过反向传播来生成扰动。同时,因为UEA缺少了反向传播来针对不同图像生成扰动,无法捕捉不同图像的细微差异性,所以为了达到攻击效果,只能增大扰动范围,表5显示的6种方法中,UEA产生的对抗样本L2范数指标为0.124,是其他方法的数倍。RAP与DAG相比,生成的时间较少,因为生成对抗样本时限制了生成扰动的大小,要求图像的PSNR大于固定的阈值,所以最后的迭代次数一般是少于DAG的,故时间代价比DAG要小。整体而言,综合考虑ASR、时间代价和扰动大小,TOG在各指标上的表现更加均衡,相比其他方法有更好的攻击效果。

    表5 几种攻击方法在Faster R-CNN上效果对比

    4.2 迁移性分析

    对抗样本的可迁移性是指生成的对抗样本对未知模型的攻击能力,是衡量对抗样本的重要指标。一种好的对抗样本生成方法,不仅具有较高的白盒攻击能力,同时也应具有较高的黑盒攻击能力。

    实验选取上节提到的6种方法,以Faster R-CNN作为源模型生成对抗样本,被攻击的目标模型选择以Darknet为骨干网络的YOLOv3(YOLOv3-D)和SSD300两种单阶段检测网络,实验结果如表6所示。从数据上看,6种方法都使两种检测器的检测精度下降,但程度不同。除了UEA,其他方法的攻击成功率都在10%之内。TOG-消失使YOLOv3-D从81.6%下降到77.5%,攻击成功率为5.0%,对SSD300的攻击成功率为3.4%。RAP对YOLOv3-D和SSD300的攻击成功率分别为3.7%和2.8%,但对Faster R-CNN攻击成功率高达92.83%(表5)。结合表5和表6可以看出,TOG系列、DAG和RAP方法的可迁移性都较低。而UEA对YOLOv3-D有43.2%的攻击成功率,对SSD300的攻击成功率为45.2%,相比其他方法,UEA方法的可迁移性较好。从算法思想上看,DAG方法生成对抗样本是根据RPN生成的建议框进行分类攻击,攻击成功率与RPN网络有关;
    RAP算法的核心是破坏RPN网络;
    TOG方法是通过Faster R-CNN的损失函数反向传播后求取的对抗梯度来生成对抗样本。这些方法都是基于Faster R-CNN的内部信息进行攻击,一旦检测器改变检测思路,例如YOLO直接得到建议框而不需要RPN网络,这些对抗样本就会失效,所以其可迁移性很低。从另一方面看,UEA在训练过程中加入特征图损失这一方法能有效提高对抗样本的迁移能力。从以上数据也可以看出,目前面向目标检测的白盒攻击方法的可迁移性是有限的,无法对未知模型造成较大破坏。

    表6 迁移性比较结果

    目标检测在许多计算机视觉任务中扮演着重要角色,所以如何有效防止目标检测器遭受对抗样本的侵害以提高模型鲁棒性显得越发重要。目前对于目标检测对抗样本的防御方法较少,本文按防御的时间段和作用,将防御策略分为预处理防御和提高模型鲁棒性防御两类。

    5.1 预处理防御策略

    预处理防御策略是指将图像在输入神经网络前先经过一系列操作,以减轻对抗样本的攻击。常见方法有去噪、滤波和图像压缩等。预处理防御策略在图像分类攻击领域是一项重要的防御措施,能够有效降低对抗样本的攻击性。一些学者尝试将图像分类的预处理操作运用到目标检测领域,发现也能起到一定的防御作用。

    5.1.1 去噪、滤波和图像压缩

    Saha等人(2020)发现去噪(Akhtar等,2018;
    Vincent等,2008)和滤波器滤波图像(Wang,2016a,2016b)等经典防御方法在目标检测的对抗防御上能起到较好作用。Liao等人(2020)将DAG产生的对抗样本经过JPEG(joint photographic experts group)压缩(Dziugaite等,2016)后,用CenterNet和SSD模型进行检测,发现这些对抗示例基本失去了攻击性。

    5.1.2 随机中值平滑

    Chiang等人(2020)提出一种针对目标检测器的随机中值平滑方法来防御对抗样本。传统的高斯平滑操作由于计算的是平均值,易受基函数的影响而产生偏斜,而目标检测需要完成回归任务,这对于回归问题是重大缺陷,因此采用中值代替平均值的中值平滑方法。实验结果表明,DAG攻击生成的对抗样本经过随机中值平滑操作,攻击成功率很低。

    5.2 提高模型鲁棒性

    5.2.1 对抗训练

    对抗训练作为图像分类领域对抗攻击防御的常用方法能够有效提高模型鲁棒性。Goodfellow等人(2015)提出通过对抗训练提高模型鲁棒性。Kurakin等人(2017)提出在大型网络Inception v3模型和大型数据集ImageNet上用批量归一化的方法进行对抗训练。很多方法(Tramèr等,2018;
    Li等,2019;
    Song,2018a;
    Madry等,2018)均将对抗训练用于对抗样本防御。

    Zhang和Wang(2019)通过对目标检测器的一些经典攻击方法进行分析,从目标检测的多任务学习(Redmon等,2016)角度指出,这些攻击是从单一的分类损失或分类损失与位置损失的组合实现对目标检测器的攻击,不同的任务损失对模型鲁棒性的作用不同,提出基于分类和位置损失来对抗训练目标检测器。结果表明,这种对抗训练在不同的攻击方法、数据集和检测器特征提取器上都能很好地提高鲁棒性。

    5.2.2 限制上下文信息使用

    Saha等人(2020)认为现阶段的目标检测器之所以效果较好,是因为有效利用了上下文信息。这种上下文信息也因此被攻击者利用,Saha提出在训练检测器时限制上下文信息的使用可以有效防御那些通过上下文推理进行攻击的方法。

    限制上下文信息的使用可以从两方面实现。1)Grad-defence。借助Grad-CAM(Selvaraju等,2017)的思想,将卷积层的中间进行可视化并进行裁剪,使其不超过被检测物体的边界框。如果超过了被检测物体的边界框,则对边界框周围的像素做非零惩罚,以限制最后一层的感受野范围,从而降低对抗样本在物体周围添加的噪声影响,获得更准确的预测。2)在训练数据中消除上下文的影响,通过人工在训练图像上粘贴一个脱离上下文的前景物体,用这种图像训练检测器,以限制上下文信息的使用。实验证明,这两种方法都能起到一定的防御作用。

    5.2.3 正则化方法

    Bouabid和Delaitre(2020)将图像分类领域的混合训练方法(Zhang等,2018)扩展到目标检测领域来提高模型的鲁棒性。混合正则训练方法使神经网络由经验风险最小化变为领域风险最小化,可以使网络不再仅记忆训练的数据,而且更加关注泛化的数据。通过线性插值样本及标签,将图像从像素和锚点网络两方面进行混合,形成标签和样本的凸组合,然后在凸组合上训练神经网络,减少对错误标签的记忆,增加模型的鲁棒性。

    5.2.4 特征对齐

    Xu等人(2021)提出使用中间层的特征对齐可以提高模型鲁棒性,降低对抗样本的攻击效果。通过知识蒸馏(knowledge distillation)和自监督学习(self-supervised learning)两种方法,将来自siamese网络和教师网络的先验特征进行特征对齐,这样的特征更加全面有效,通过指导中间特征层的输出来强化对抗训练,使得到的网络抗干扰能力更强。实验结果表明,新的特征对齐方法在防御上比Zhang和Wang(2019)的对抗训练效果更好。

    5.2.5 噪声混合

    Li等人(2020)观察到对抗样本的噪声是通过反向传播形成的,具有特定规律,如果破坏这种规律就会降低攻击效果。同时,神经网络对通用噪声的敏感度比对抗噪声低,更容易抵抗没有规律的通用噪声。因此设计了一种分段屏蔽框架,将图像分成小部分,随机对每部分的像素进行清洗,并添加通用噪声破坏对抗样本中的对抗模式,以达到防御目的。实验表明,加入分段屏蔽框架的目标检测模型在抵抗对抗样本的性能上优于未加入分段屏蔽框架的检测器。

    5.2.6 检测器预警(DetectorGuard)

    Xiang和Mittal(2021)针对对抗攻击中的局部攻击,设计了一种名为检测器预警(DetectorGuard)的通用框架报警机制。DetectorGuard利用图像分类与目标检测的相互联系,将鲁棒性从分类器传递到检测器,设计了一种对象预测器的组件。对象预测器通过在整幅图像或特征图上使用比较鲁棒的分类器作为滑动窗口,对图像中的各位置分类,最后将分类结果进行聚合得到最后的预测结果。将预测结果与原始目标检测器的检测结果进行对比,如果两个检测结果不一致,则认定为对抗样本,触发检测器预警框架的攻击警报。

    5.3 防御策略总结

    表7列举了一些目标检测现有防御策略,这些防御策略各有优缺点且适用场合不同,往往只针对特定的攻击方法或数据集。目前,最有效的措施是进行对抗训练,但对抗训练需要优先生成对抗样本,对目标检测任务来说,开销大,速度慢。特别对于补丁类的攻击的防御代价更大,因为生成一个有效的补丁往往需要上千次乃至上万次迭代。

    表7 防御方法总结

    总体来说,目标检测领域的防御技术目前仍然十分匮乏,仅有的一些措施是对全局扰动攻击进行防御,对物理场景中检测的防御甚至没有。造成这种现象的原因是目标检测领域的对抗攻击出现时间短,研究远没有图像分类领域那么深入,且目标检测的网络结构更加复杂,不仅涉及分类,还涉及位置回归。所以许多分类器上的防御技术在目标检测领域遇到回归网络就会失效。如何有效防御目标检测领域的对抗攻击在将来是一个研究热点。

    目前,目标检测领域的对抗样本生成和防御技术处于探索阶段,还有很大发展空间。未来值得重点关注的研究方向如下:

    1)目标检测对抗样本的可迁移性。对抗样本的可迁移性作为衡量对抗样本的重要属性之一,需要得到更多关注。而目标检测是计算机视觉中的一个热门领域,它不同于图像分类,由于其特有的方法和技术,使得目标检测对于一般的对抗样本有很好的抗干扰性。目前该领域提出的大多数对抗样本白盒生成方法往往是针对特定的一类目标检测器进行攻击,例如针对两阶段检测器进行攻击,但是这样生成的对抗样本对单阶段检测器的攻击效果就不尽人意。说明现阶段方法生成的对抗样本的可迁移能力较差,无法在其他模型上取得较好效果。如何有效解决现有攻击方法过于依赖模型信息而导致生成的对抗样本缺乏泛化能力的问题,提高对抗样本的可迁移性和鲁棒性,使生成的对抗样本在各种目标检测模型上均具有较高的攻击性,是未来的一个研究热点。

    2)目标检测的对抗防御。由于目标检测对抗样本生成是一个新兴领域,处于起步阶段,对于对抗样本产生的原因仍未达成共识。对抗防御方面的研究较少,已有的一些防御策略主要是借鉴图像分类中的对抗防御方法。如何增强目标检测器的鲁棒性以从容应对对抗攻击,以及如何从神经网络的根源抵抗这种攻击,仍然需要进一步研究。随着目标检测在安全攸关领域的普遍应用,设计更鲁棒、更安全的目标检测器越来越成为一项迫切的任务。

    3)对抗样本的扰动大小和生成速度。由于目标检测模型是一个大型网络,而现有方法,如:DFool(Lu等,2017)、DAG(Xie等,2017)、RAP(Li,2018b)、CAP(Zhang等,2020)、BPatch(Li等,2018a)、TOG(Chow等,2020b)都是基于反向传播生成的,因此生成对抗样本需要较长时间。尽管UEA方法提出使用GAN网络提前训练好网络,这样生成对抗样本时仅通过前向传播就能生成,但是这种方法的攻击效果并不十分理想,而且生成的图像扰动较大。因此还需要在此基础上设计一种更好的网络,使生成对抗样本的速度比传统方法更快,在节省时间的同时,能保持较好的低扰动率和较高的攻击效果,这也是未来发展的一个重点方向。

    本文从对抗样本扰动生成的范围、攻击的检测器类型以及使用的损失函数出发,归纳总结了面向目标检测的对抗样本生成方法。通过实验比较分析了几种典型对抗样本生成方法的性能。介绍了针对目标检测现有的对抗防御策略。

    目前,目标检测领域的对抗样本无论生成还是防御都还存在很多问题,且由于对抗样本产生的原因还不是十分清楚,因而防御策略的研究较少。本文希望能够给研究者带来更多关于目标检测的对抗样本生成与防御的研究思路。随着对目标检测对抗样本生成与防御研究的深入开展,必然会推动目标检测技术进一步发展,为目标检测的广泛应用提供更安全的保障。

    猜你喜欢 检测器扰动损失 洪涝造成孟加拉损失25.4万吨大米今日农业(2022年15期)2022-09-20一类五次哈密顿系统在四次扰动下的极限环分支(英文)上海师范大学学报·自然科学版(2022年3期)2022-07-11基于高速公路事故黑点的检测器优化布设测控技术(2022年4期)2022-04-27基于扰动观察法的光通信接收端优化策略汽车实用技术(2022年5期)2022-04-02带扰动块的细长旋成体背部绕流数值模拟北京航空航天大学学报(2021年7期)2021-08-13两败俱伤小天使·二年级语数英综合(2019年10期)2019-11-08用于录井专用气相色谱仪的FID检测器科技风(2018年15期)2018-05-14损失读者·校园版(2015年19期)2015-05-14带电的标量场扰动下ReissnerNordstrm Antide Sitter黑洞的不稳定性湖南师范大学学报·自然科学版(2014年5期)2014-11-14那些损失上百万的演员海外英语(2013年8期)2013-11-22

    相关热词搜索:样本 综述 对抗

    • 范文大全
    • 说说大全
    • 学习资料
    • 语录
    • 生肖
    • 解梦
    • 十二星座