网站首页 公文大全 个人文档 实用范文 讲话致辞 实用工具 心得体会 哲学范文 总结范文 范文大全 报告 合同 文书 信函 实用
  • 汇报体会
  • 节日庆典
  • 礼仪
  • 毕业论文
  • 评语寄语
  • 导游词
  • 口号大全
  • 其他范文
  • 百花范文网 > 实用范文 > 其他范文 > 基于深度图卷积网络的社交机器人识别方法

    基于深度图卷积网络的社交机器人识别方法

    时间:2023-01-13 17:00:14来源:百花范文网本文已影响

    毛文清,徐雅斌,3*

    (1. 北京信息科技大学网络文化与数字传播北京市重点实验室 北京 朝阳区 100101;
    2. 北京信息科技大学计算机学院 北京 朝阳区 100101;
    3. 北京信息科技大学大数据安全技术研究所 北京 朝阳区 100101)

    社交机器人是目前活跃于社交网络上的一种虚拟机器人。它实际上是一种自动化程序,能够利用社交账号,运用人工智能等相关技术模仿人类行为在社交网络中活动。据估计,2019 年Facebook 活跃账户中机器人的平均存在率为11%[1]。受政治或经济利益驱动,社交机器人的数量或比例还在呈现不断增加的趋势。Twitter 用户中进行美国股市趋势预测的有71%可能是社交机器人[2];
    且在2020年的新冠病毒传播预测中也有同样的额情况[3]。由此看出,社交机器人正日益成为社交网络中影响社会舆论的重要工具之一。

    研究人员在检测社交机器人方面做了大量的工作。现有的社交机器人检测模型可分基于特征的方法和基于图论的方法两类。

    1) 基于特征的社交机器人检测方法是目前主流的检测方法。它通常将机器学习算法应用于待检测的账户,以确定这些账户是社交机器人还是人类。文献[4-6]通过提取简单的用户特征,利用贝叶斯模型、K 近邻模型与C5 决策树检测社交机器人。除此之外,研究学者注意到,正常用户与社交机器人账号之间在推文中所暗含的情绪因素有很大的不同[7]。文献[8]通过情感分析和采用其他用户特征识别新浪微博上的水军。文献[9]指出社交机器人可以利用Twitter 情绪来制造适得其反的效果,利用确认偏差制造虚假趋势或改变公众意见。目前已有文献都是进行粗粒度情感划分工作,如提取博文的情感极性或情感强烈程度作为情感特征,还没有研究细粒度情感划分对社交机器人检测的影响问题。

    近年来,深度学习方法应用越来越广泛。文献[10]将长短时记忆网络(long short-time memory,LSTM)首次用于网络垃圾邮件检测,检测准确率达到95.25%。文献[11]利用卷积神经网络(convolutional neural networks, CNN)对Twitter 文本进行检测。文献[12]利用残差网络(residual network, ResNet)、双向门控循环单元(bidirectional gated recurrent unit, BiGRU)和注意力机制构建了一种新的深度神经网络模型(residual networkbidirectional gated recurrent unit-attention mechanism,RGA),实现对社交机器人的检测。文献[13]采用深度学习生成模型(variational autoencoder, VAE)自动编码和解码样本特征,通过度量解码表示与原始特征的差异进行社交机器人检测。虽然这些基于特征的方法取得了很好的效果,但是由于社交机器人对人类行为的模仿程度越来越高,两者之间的行为特征差异越来越小,社交机器人能够较容易地模仿用户行为。但它在社交网络结构上的关系难以发生变化,因此使用用户特征并结合结构关系进行检测是一个好方法。

    2) 基于图论的检测方法便是通过描述社交机器人和正常用户两者不同的社交关联结构模式,将社交机器人检测问题转化为图中节点分类问题,然后用图挖掘算法来区分正常账户和社交机器人账户。目前,基于图的深度学习方法已被用于社交机器人检测,并获得较好的检测性能。文献[14]考虑节点特征和用户关注关系,首次采用图卷积神经网络技术检测垃圾邮件机器人。文献[15]提出了一种基于图注意力网络的半监督图嵌入模型,该方法通过捕捉用户特征和社交网络中用户之间的关注关系和转发关系来识别垃圾邮件机器人。文献[16]结合了图卷积网络(graph convolutional network, GCN)和循环神经网络(recurrent neural network, RNN)模型,对发布垃圾邮件的恶意机器人进行检测。

    综上,本文针对社交机器人大多只含有单一情绪的情况,提出了情绪多样性特征。在常规特征的基础上,更加强调捕捉社交机器人与正常用户的情绪差异进行社交机器人的识别。针对GCNII(graph convolutional network via initial residual and identity mapping)模型使用静态的传播法则,存在无法自适应的问题,提出一种增加注意力机制的采用博文聚类方法构造初始图的A-GCNII(attention- graph convolutional network via initial residual and identity mapping)模型,这既可以检测出博文内容相似的来自同一批次生产的社交机器人,又可以降低数据采集工作量。通过在每个传播层加入参数化的注意力引导机制,给予与中心节点相同类别的邻居节点更强的关联强度,从而有效的提升分类结果。

    1.1 元数据特征提取

    元数据是描述数据本身及其环境的数据。账号的元数据可以较为全面地反映一个账号的特征,是进行社交机器人检测研究中常用的特征。典型的元数据特征如表1 所示。

    表1 元数据特征

    1.2 情绪多样性特征提取

    在某一事件中,社交机器人为了实现其目的,必然要清晰表达某种观点或传播某种信息,并带有设定的情感。但跳出该话题与事件,则很少呈现其他的情感表达。即社交机器人的博文往往只含有单一类型的情感。而正常用户除关注该话题与事件外,还关注生活中方方面面的事物,其博文情感往往呈现多样性、复杂性的特点。因此,分析账号情感表达的丰富程度有助于区分正常用户和社交机器人。

    为了衡量该特性,本文提出情绪多样性特征。首先对博文进行细粒度情绪分类,分为积极、愤怒、悲伤、恐惧、惊奇和无情绪6 类,然后计算账号的情绪多样性特征。由于发布的博文大多文本较短、省略严重,采用传统的机器学习算法对博文进行情绪分类,很难准确抽取到句子中与情感表达紧密相关的特征,且以人工标注的单个词作为特征会忽略单词所处的上下文语义信息。

    2018 年Google 提出的文本预训练模型BERT(bidirectional encoder representations from transformers)则能够利用transformer 模型超强的特征抽取能力来学习词语的双向编码表示,融合了上下文信息的词语编码能更好地进行情感决策。RoBERTa(a robustly optimized BERT pretraining approach)模型作为“强力优化”版的基于BERT 的预训练模型,通过训练时间更久、使用更大批次和使用更多数据等设计获得了更好的效果。因此,本文采用RoBERTa 模型进行博文情绪分类任务。具体的情绪分类模型架构为取RoBERTa 预训练模型的最后三层embedding 向量与cls 向量进行拼接,然后传入linear 层得到预测结果。

    情绪多样性特征提取的流程如下。

    1) 用情绪分类模型训练已标注好的语料对参数进行调优,保存测试集准确率最高的模型作为最终用于预测情绪的模型;

    2) 对微博文本进行预处理,包括分词、去停用词等;

    3) 将预处理后的微博文本输入到情绪预测模型中,对每条博文分类得到对应的情绪;

    4) 统计每个账号所有博文对应的情绪,计算该账号出现每种情绪的概率p1、p2、p3、p4、p5、p6;

    5) 根据概率值计算情绪种类数特征、辛普森多样性指数特征(Simpson"s diversity index)、香农−维纳指数特征(Shannon Wiener index)。辛普森多样性指数和香农−维纳指数都是量化多样性的指标,可以反映数据集中有多少种不同类型,并且可以同时考虑到这些种类的个体分布之间的系统性关系,例如丰富性,差异性或均匀性。

    ①情绪种类数特征(sentimentclassnumcount):账号发布的所有博文涉及的情绪类别数量,即统计p1、p2、p3、p4、p5、p6 中不为0 的数量。

    ②辛普森多样性指数特征:从账号发布的博文中连续两次抽样得到的博文包含同一类情绪的概率:

    式中,S为情绪数目;
    Pi(u)为用户u包含第i类情绪的概率值。

    ③香农−维纳指数特征:描述账号情绪类别的紊乱和不确定性,不确定性越高,多样性也就越高:

    式中,S为情绪数目;
    Pi(u)表示用户u包含第i类情 绪的概率值。

    本文通过对大量的社交机器人账号及正常人类账号的行为分析发现,由于社交机器人账号的操纵者一般具有比较明确的目的,且完全模仿人类的语言风格仍存在困难。正常用户发布的博文大多具有个人特色,表达内容各异,发布极为相似内容的博文的可能性较低。而某一话题下来自同一批次生产的社交机器人则使用同一语言模板,博文内容相似的可能性较高。因此,将同一话题下的相似博文聚为一类有助于发现社交机器人。鉴此,本文采用博文聚类方式进行博文相似图的构造。

    由于single-pass 聚类算法是一种增量聚类算法,每条文本只需要流过算法一次,它可以很好地应用于话题监测与追踪、在线事件监测等,特别适合如微博帖子信息的流式数据。因此,本文采用single-pass 聚类算法来完成博文聚类的任务。

    综上,首先采用single-pass 算法进行博文聚类,然后利用博文聚类的结果构造完全图,由此得到博文相似图,整体流程如下。

    1) 将待分类账号在某一话题下发布的博文保存在txt 文件中,每行对应一条博文;

    2) 将txt 文件输入single-pass 模型中,singlepass 算法读取txt 文件的第一条博文,建立一个主题,并加入该主题所在的簇;

    3) single-pass 算法读取下一条博文,计算该条博文与当前所有主题的余弦相似度,如果相似度值大于阈值θ,则加入该主题所在的簇;
    如果相似度值小于阈值θ,则为该条博文新建一个主题,直到遍历完txt 文件的每一条博文,结束;

    4) 所有博文聚类到不同的簇,处于同一个簇的博文互为相似博文,并规定处于同一个簇的账号之间有边相连,构造完全图,由此完成博文相似图的构造。

    3.1 问题描述

    社交网络中的用户可以分为正常用户和社交机器人。假设用户集为V={v1,v2,···,vn},类别集为C={Cm,Cb},Cm为 正 常用户集,Cb为社交机器人集。社交机器人识别是一个分类问题,具体如下:

    式中,F(vi,cj)∈{0,1}为 二元函数,0 表示用户vi为正常用户,1 表示用户vi为社交机器人。

    3.2 分类模型

    3.2.1 GCNII 模型

    文献[17]提出了一种图卷积网络semi-GCN,它是一种经典的GCN 框架,其主要思想是使用切比雪夫一阶展开近似谱卷积,使每一个卷积层仅处理一阶邻域信息,然后通过分层传播规则叠加一个个卷积层,达到多阶邻域信息传播。

    针对GCN 模型因过度平滑而具有的浅层体系结构限制,文献[18]设计了GCN 模型的扩展模型(GCNII)。它具有初始残差和恒等映射两种简单而有效的技术,可有效地缓解过度平滑的问题。

    普通GCN 模型公式为:

    GCNII 模型公式为:

    与普通GCN 模型相比,GCNII 模型进行了两个修改:

    2) 在权重矩阵W(l)中 添加一个恒等映射In。

    关于初始残差连接,GCNII 将平滑表示P˜H(l)与初始表示H(0)连接,使得当模型堆叠了许多层时,每个节点的最终表示也都至少保留来自输入层的部分 αl输入。

    关于恒等映射,通过在权重W(l)中添加一个单位矩阵In,保证了深度模型至少与浅层模型准确率相同。即假设βl足够小,模型就会忽略权重矩阵W(l)。

    3.2.2 改进的A-GCNII 模型

    原始的GCNII 使用的是静态,无法自适应地传播法则,无法捕捉中心节点的哪个邻居节点对于中心节点的分类贡献更大。文本聚类构造的拓扑结构将发布相似言论内容的账号彼此连接,但这些账号的行为特征却不一定相似,应赋予具有相似行为特征的账号以更高的关联强度。

    整体A-GCNII 分类模型结构如图1 所示。AGCNII 分类模型由一层输入层、若干隐藏层和一层输出层组成,输入层以一张图为输入,经过第一层全连接层,在正向传播之前将节点特征X转为低维初始表示H(0);
    然后经过第二层卷积层,对图中所有节点及其邻居进行一次卷积操作,并使用卷积结果更新节点;
    再经过激活函数到达下一层卷积层。重复这一过程,直至到达输出层。在输出层,所有节点的特征被转化为任务相关的标签,以辅助分类。

    图1 A-GCNII 结构图

    图中,虚线框为第l 层增加注意力机制后的节点聚合过程。注意力权重是通过一条边上的两个节点的特征向量的余弦相似度乘以一个自适应系数β 后得到。每一层聚合层中共用一个β,最后通过softmax 使权重总和为1。

    定义传播矩阵P:若节点i和节点j之间不存在边,则元素值为0;
    若节点i和节点j之间存在边,则元素值为注意力权重值,计算公式为:

    计算节点i和节点j在第l 层隐含状态的余弦距离,是因为它捕捉了节点j到节点i的关联程度。注意力机制更倾向于选择那些与中心节点具有相同类别的邻居节点,并给予更强的关联强度。

    由此,得到A-GCNII 分类模型节点i的更新公式为:

    4.1 数据采集与预处理

    数据集由两部分数据组成:1) 通过爬虫技术爬取2021 年3 月17 日−2021 年4 月17 日时间内微博平台上“#新疆棉花#、#我支持新疆棉花#”话题下的所有账号发布的带话题博文内容,以及爬取这些账号ID 对应的用户信息和历史博文信息,并通过人工标注方式注明是否为机器人。经过数据预处理后,得到6 976 个有效账号数据。2) 通过社交机器人样本数据生成模型生成机器人类型的数据。同样进行数据预处理,得到6 636个生成账号数据。因此,本文共采用13 612 个账号数据作为数据集,正常用户账号和社交机器人账号数量比例为1:1,并将其按6:2:2 划分为训练集、验证集和测试集。

    4.2 评价指标

    为了更真实地反映整体分类效果,本文使用准确率、精确率、查全率、F1-score 和AUC 值5个常用指标来衡量提出的社交机器人检测方法的性能。

    4.3 参数设置

    本文使用PyTorch Geometric(PyG)框架,PyG是面向几何深度学习的PyTorch 的扩展库。处理器为Intel® Core TM i7-10875H CPU @ 2.3 GHz,内存为 16 GB,操作系统为Windows10。

    A-GCNII 模型是基于PyG 库的GCNII 模型的进一步改进。模型训练时,设置层数为8,使用学习率为0.01 的Adam 优化器训练模型,最多1 000 个epoch。设置dropout 为0.6,隐藏单元数量为16,超参数α 为0.8,β 为0.5,其他参数与PyG 库中GCNII 模型的初始参数相同。

    4.4 实验

    为了分析该方法检测社交机器人的有效性,设置了以下3 组实验。实验中预设的epoch 数为1 000。

    实验1:情绪多样性特征有效性实验

    采用RoBERTa 模型进行博文情绪分类。首先下载SMP2020 微博情绪分类比赛数据集,将其中的80%作为训练集,20%作为测试集,将爬取的博文数据作为待分类数据。选用RoBERTa 中文预训练语言模型作为预训练模型,得到每条博文对应的情绪类别后,提取情绪多样性特征,包含情感类别、辛普森多样性指数、香农−维纳指数。

    采用A-GCNII 分类模型来测试以下5 种增加特征后的效果,分别为:增加3 个情绪多样性特征(A)、增加情感类别数特征(B)、增加辛普森多样性指数特征(C)、增加香农−维纳指数特征(D)、无情绪多样性特征(E),并使用5 个指标对于分类结果进行评价,分类评价情况如图2 所示,且A、B、C、D、E的AUC 值分别为:0.99838、0.99647、0.99832、0.99752,0.99685。

    图2 情绪多样性特征有效性验证实验结果

    由图2 可知,在4 个指标上均呈现A>C≥E≥D>B的结果。其中,A的检测效果最好,此时准确率为98.42%,精确率为97.13%,召回率为99.77%,F1 值为98.44%。由AUC 值结果可知,虽然差异并不明显,但还是能够得出,在ROC 曲线下面积指标上呈现A > C ≥ D >E>B 的结果。

    由此可以得出结论:增加3 个情绪多样性特征、辛普森多样性指数特征或香农−维纳指数特征时都可以提升社交机器人的检测效果,对于预测社交网络账号是否属于社交机器人具有一定的意义。

    对比3 种单一情绪多样性特征,相比于情感类别数特征,利用辛普森多样性指数特征和香农-维纳指数特征衡量情绪的多样性更有效。这是因为这两个多样性指数特征,不仅反映了数据集中包含多少种不同的类别,且考虑了这些种类的个体分布之间的系统性关系,如丰富性、差异性、均匀性。但在群落生态学分析中,辛普森多样性指数主要针对稀有种的均匀度,而香农−维纳指数针对优势种。即辛普森多样性指数更关注于社交机器人设定的针对特定话题的某一种情绪之外的其他情绪,这些情绪的数量更少,出现的可能性更小。因此利用辛普森多样性指数可以更好地凸显社交机器人账号与正常用户账号中稀有情绪的明显差异。

    实验2:博文聚类有效性实验

    将本文提出的博文聚类构造拓扑图的方法与账号特征聚类拓扑图方法进行比较。由于本文数据集中包含部分生成数据,因此,博文聚类构造拓扑图的方法包括nm、n1 两种具体方式。nm 表示爬取的博文经过博文聚类后聚为n类,m个生成账号分为m类,总共得到n+m类;
    n1 表示爬取的博文经过博文聚类后聚为n类,m条生成账号分为1 类,总共得到n+1 类。

    账号特征聚类方法即对账号的特征聚类,将具有相似特征值的点聚为一类。本文采用k-means 方法,并取k=25,即表示利用k-means 方法对爬取账号和生成账号聚为25 类,它是利用肘方法和轮廓系数法确定的最佳聚类数。采用GCN 和AGCNII 两种分类模型进行聚类检测,评价指标结果对比如图3 所示,且gcn_k25、gcn_n1、gcn_nm的AUC 值分别为:0.50770、0.81016、0.99814;
    Agcnii_k25、Agcnii_n1、Agcnii_nm 的AUC 值 分别为:0.99811、0.99812、0.99821。从图3a 和AGCNII 模型的AUC 值可看出,对于A-GCNII 分类模型,在准确率、精确率、F1 值和AUC4 个指标上,本文提出的博文聚类构造方式nm 和n1 均高于k-means 方法。在recall 指标上,Recall(nm)=Recall(n1)=99.85%,Recall(k25)=1,3 种方式都呈现较高的值。其中,构造方式n1 的检测效果最好,此时准确率为97.83%,精确率为95.97%,召回率为99.85%,F1 值为97.87%,AUC 值为99.81%。

    图3 不同拓扑结构构造方法检测结果对比图

    从图3b 和GCN 模型的AUC 值可看出,对于GCN 分类模型,博文聚类构造方式nm 在5 个指标上的检测效果都较好,构造方式n1 的精确率值较高,达到88.21%,但其他4 个指标值较低,kmeans 方法在5 个指标上的检测效果较差。综上可得,相比于k-means 方法,两种博文聚类构造方法的检测效果更好。

    比较两种博文聚类构造方法,构造方法nm 在两个分类模型上的检测效果都很好;
    构造方法n1 在A-GCNII 分类模型上分类效果较好,但在GCN 分类模型上分类效果较差。因此,构造方法nm 的检测效果更稳定。进一步分析发现,由于构造方法nm 表示m个账号发布的博文互不相同,构造方法n1 表示m个账号发布的博文相似,显然构造方法nm 更符合实际情况。

    采用构造方法nm 进行博文聚类,内容相似的博文聚到了第2 107 个主题所属的类别。构造这组与博文对应账号的拓扑结构如图4 所示,图中,三角形表示社交机器人,圆形表示正常用户,标签为对应的ID 账号。可以看出,该组共包括15 个账号,其中3 个社交机器人发布了4 条相同的博文。由此表明,采用single-pass 聚类构造博文相似图可以挖掘出社交机器人账号间的隐秘联系,证明了构造方法nm 的合理性与有效性。

    图4 博文聚类可视化结果

    实验3:社交机器人识别对比实验

    为了进一步验证A-GCNII 模型的有效性,本文将近年来文献中直接和间接相关的模型作为基线模型,包括3 个经典的机器学习方法、3 个深度学习方法和3 个图神经网络方法。逻辑回归LR[19](logistic regression):用于新浪微博社交机器人的检测;
    支持向量机SVM[8](support vector machine):用于检测新浪微博的水军;
    随机森林RF[9](random forest):用于社交机器人检测;
    多层感知机MLP[20](multilayer perceptron):用于检测互联网水军;
    长短 时 记 忆 网 络LSTM[10](long short-term memory):用于检测网络垃圾邮件;
    卷积神经网络CNN[11](convolution neural network):用 于 检 测 社 交 机 器人;
    图卷积神经网络GCN[14](graph convolutional network):用于检测垃圾邮件机器人;
    图注意网络GAT[15](graph attention network):用于垃圾邮件机器人检测;
    GCNII(graph convolutional network via initial residual and identity mapping):本文改进模型的基线方法。

    选取所有13 612 个有标签的节点,按6:4 进行模型训练和测试,分类评价情况如表2 所示。

    表2 分类算法实验结果对比

    由表2 可知,本文提出模型的检测效果在准确率、精确率、F1 值和AUC 指标上均优于其他方法,在召回率指标上也接近最高值。与其他方法相比,A-GCNII 图神经网络模型的各项指标均有明显提高。对比GCNII 模型,A-GCNII 模型的效果略有提高,这是由于引入了注意力机制,使得中心节点能够更有针对性地学习具有相似行为特征的节点特征,由此证明了AGCNII 分类模型的有效性。

    本文设计了一种结合账号情绪多样性特征的深度图卷积网络,并从账号表达情感、言论内容以及行为特征三方面对新浪微博社交机器人进行检测。通过捕捉社交机器人与正常用户在稀有情绪上的差异来更好地检测社交机器人。通过采用single-pass聚类构造博文相似图的方法获得图结构信息,为同一话题下的账号提供拓扑结构,降低数据采集工作量,有效地检测了来自同一批次生产的发布相似博文内容的社交机器人;
    最后通过在GCNII 模型的基础上增加注意力机制,给予与中心节点相同类别的邻居节点更强的关联强度,由此提升了社交机器人的检测结果。本文在新浪微博数据集上进行实验,分析了不同特征、构图方式和分类算法对检测效果的影响。实验结果表明,本文提出的基于改进的深度图卷积网络识别模型在各个指标上均表现良好,推动了基于图的社交机器人识别的进一步发展。

    猜你喜欢 博文聚类账号 一种傅里叶域海量数据高速谱聚类方法北京航空航天大学学报(2022年8期)2022-08-31第一次挣钱作文大王·低年级(2022年3期)2022-03-19基于知识图谱的k-modes文本聚类研究南京理工大学学报(2022年1期)2022-03-17玩游戏没账号租一个就行电脑爱好者(2021年24期)2021-09-09一种改进K-means聚类的近邻传播最大最小距离算法计算机应用与软件(2021年7期)2021-07-16施诈计骗走游戏账号派出所工作(2021年4期)2021-05-17基于模糊聚类和支持向量回归的成绩预测华东师范大学学报(自然科学版)(2019年5期)2019-11-11谁和谁好小学生作文·小学低年级适用(2018年12期)2018-04-11Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut校园英语·下旬(2016年2期)2016-03-18Google Play游戏取消账号绑定没有Google账号也能玩CHIP新电脑(2016年3期)2016-03-10

    相关热词搜索:卷积 社交 机器人

    • 范文大全
    • 说说大全
    • 学习资料
    • 语录
    • 生肖
    • 解梦
    • 十二星座