网站首页 公文大全 个人文档 实用范文 讲话致辞 实用工具 心得体会 哲学范文 总结范文 范文大全 报告 合同 文书 信函 实用
  • 汇报体会
  • 节日庆典
  • 礼仪
  • 毕业论文
  • 评语寄语
  • 导游词
  • 口号大全
  • 其他范文
  • 百花范文网 > 实用范文 > 其他范文 > 一种网络舆情中的影响力评价模型研究

    一种网络舆情中的影响力评价模型研究

    时间:2023-01-09 15:15:14来源:百花范文网本文已影响

    刘涛 马越 姜和芳 伍少成 王浩林

    (深圳供电局有限公司 广东省深圳市 518000)

    网络社交媒体影响力评模型是促进商业、宣扬政治观点和传播信息以造福社会的不可缺的工具。影响最大化(IM)[问题要求找到一组k个初始启动子模块,使在网络中用户间传播单一消息的传播最大化。在过去的十年中,在推荐[和舆情的背景下被广泛研究。然而现实世界中的活动通常需要多方面的:由多个信息片段组成。例如,涉电力舆情目的是让老百姓了解电力相关新闻和事件。对消费者行为的研究证实,当用户只收到活动的单个元素时,不太可能触发任何有意义的行动(例如,投票给某个候选人或采用某个产品)。在另一个例子中,Youtube频道可能试图通过在抖音或微博等社交网站上传播信息活动视频来增加订阅用户的数量。由于内容的短暂影响,这段信息活动传播的视频可能会很快从用户的记忆中消失,即使已经看过并与朋友分享了它。只有在观看同一频道的多个视频时,用户才会转向订阅者。因此,一个活动策略应该传播多个信息活动信息,以达到重叠的采用结果。

    我们需要分配K启动子模块来传播第i个片段,其中∑k=k。对于一个片段t∈T的启动子模块的影响扩散取决于片段独特的主题分布。采用logistic激活模型对用户接收到多个片段时的采用行为进行建模,如消费者行为研究当用户接收到的信息较少时,采用概率较小,在暴露于足够数量的片段后,随着额外信息的影响减弱,概率梯度下降。由于逻辑激活模型的影响,OIPA中的目标函数是非子模块的,因此基于子模块假设的技术是不适用的。同时,本文提出了一个分支定界框架,并引入了一个单调子模优化的新公式,该公式可以通过贪婪的启发式逼近因子(1-1/e),从而获得未探索搜索空间的一个紧上界。因此,迭代地解决一个可处理的优化问题,直到计算一个上界小于或等于得到的最佳解。本文所提模型没有扫描大量的候选启动子模块,而是只在启动子模块的用户采纳边际收益大于预定义的阈值h时才选择启动子模块。通过逐步降低阈值,在预算k允许的情况下选择更多的启动子模块。

    1.1 传统IM

    研究影响力最大化问题的目标是找到网络中的k个启动子模块以最大化受影响用户的预期数量。IM是NP难问题,当今最流行的方法是独立级联模型(IC)和线性阈值模型(LT)。对于一个简单的贪心算法来说,一个恒定的近似因子是成立的。

    经典的影响模型将不同的信息活动信息按照其在模型下的影响传播视为可互换的。与此相反,主题感知模型以依赖于主题的方式区分每个独特的消息的影响。主题感知IM问题的目的是在这样一个主题感知的影响模型下寻找启动子模块。

    1.2 竞争IM

    竞争IM考虑这样一种场景:多个竞争者在同一个网络中传播消息,每个用户最多采用一条消息。以往的研究提出了竞争IM问题的三个主要目标:

    (1)在竞争对手选择启动子模块的策略下,使竞争对手的影响扩散最大化;

    (2)利用博弈论的概念,在对手策略未知的情况下,求得竞争的均衡;

    (3)最大限度地扩大所有竞争对手的总影响力传播,这是一个有兴趣公平分配竞争活动的网络主机所希望看到的。

    1.3 比较IM

    一些作品考虑了带有多个非竞争性信息的信息活动式营销。论文的研究了影响传播是独立的运动的情况。刘等研究两组互补产品的场景中,一个产品只能由一个用户采用已经采取了相应的产品在其他陆集。国外研究人员介绍比较影响模型,该模型包含两个竞争和互补的IM:他们认为两种不同的两个活动之间的关系,a和B:在竞争关系,用户采用的概率降低了采用B;
    在一种互补关系中,用户采用a会增加采用b的可能性。这种比较影响模型会产生两个IM问题:SELFINFMAX,它是为了最大化一个活动自身的影响力。如表1所示。

    表1:论文中常用符号

    在本节中,将介绍一个主题感知的影响模型,该模型描述了不同的消息块如何在网络中传播和最优影响块分配(OIPA)问题。

    2.1 Topic-aware影响模型

    将社交网络建模成一个有向图网络G(V,E),V是一个用户集并且每条边e=(u,v)∈E捕获了u,v之间的朋友关系(双向链接)或者追随者关系(单向链接)。|V|=n,|E|=m。为了对一个物品在SN中的传播方式进行建模,采用了研究成熟的主题感知传播模型。该模型从来自一个SN上传播的社交活动(比如推文和回复)提取了一组隐藏的主题Z={z,z,…,z}。形式上,给定一条边e = (u,v),主题感知的影响概率p(e|z)对主题z∈z下u如何影响v进行建模;
    将p(e)表示为e的主题影响向量。这些概率可以从过去传播活动的日志中得知。

    2.2 问题定义

    信息传播是由信息活动片段组成的T={t,t,…,t}。假设每一块t都在网络中独立地传播。使用逻辑模型来模拟用户的采纳行为。在该模型中,用户v采用活动 T的概率为伯努利随机变量X,由逻辑函数捕获:

    由于每个启动子模块在不同主题上具有不同的传播消息片段的潜力,目标是将T的片段分配给S中明智选择的启动子模块子集,从而使关于T的所有用户的总体采用效用最大化。首先正式定义采用实用程序。

    3.1 采用效用函数的性质

    进一步定义了一个分配计划与另一个分配计划的并集,以及相关的边际效用收益,如下所示。

    3.2 可逼近性

    对于一般的OIPA情况,没有已知的方法来开发多项式时间近似算法。尽管如此,社会影响力遵循一个幂律原则:少数人的影响力明显大于其他人。基于这一原则,本文提出了一个分支限制的框架,优先考虑有较大影响的启动子模块,并在必要时提前终止。在一个最大的堆中维护部分候选计划,根据它们的估计AU得分上界进行排序。如果部分计划的上界小于当前获得的最佳计划的确切AU分数,将安全地修剪部分计划。然而,这个解决方案带来了不小的技术挑战,因为需要:

    (1)快速计算候选计划的AU分数;

    (2)推导出局部规划的AU分数的有效上界;

    (3)高效计算出上界函数。

    4.1 AU估计

    为了使用分支绑定框架,需要对大量的候选分配计划评估AU。由于在经典的IM问题中评估任意用户集的影响传播是#P-hard,因此计算任意候选计划的AU也是#P-hard。然而,可以使用反向可达集(RR)的扩展方法来评估AU的准确性。下面简要回顾一下RR集方法。

    Reverse-Reachable (RR)集:给出一个齐次影响图G"=(V",E"),|V"|=n"。其中,单个值p(e)通过边e=(u,v)∈E"表征激活概率,RR集方法估计任意种子集S∈V"的期望影响。随机RR集取决于两个随机选择:(i)从图中随机选择一个初始节点x, (ii)通过保持每条边e∈E的概率为p(e)对图进行采样。RR集合包含采样图中可以到达x的所有顶点。I[R∩S=∅]为指示RR集Ri是否与S相交的布尔变量。生成θRR集之后,可以估计S的预期影响σ(S):

    4.2 由分支定界得到上界函数

    一个简单的OIPA解决方案应该枚举所有可能的候选计划,并使用MRR集计算它们的AU分数,相反,通过分支和界来估计AU的上界函数。

    算法1. 分支定界

    算法1给出了该框架。首先生成θ MRR集竞选T。然后初始化一个最大堆。S是一个部分计划。V的启动子模块集尚未考虑和U对应的搜索空间的上限。在每个迭代的搜索循环,堆的顶部进入的上界值。并更新全局上限,只要部分计划没有被填满在搜索循环的每次迭代中,通过上界值获得堆的顶部条目。对于每一个局部计划运用函数ComputeBound()。当全局下界大于或等于全局上界时,算法终止。

    算法2. ComputeBound()

    4.3 渐进上界估计

    渐进估计法的思想如下:在每个迭代中,推动者v通过个人τ(∙| Sa)。然后,设置一个阈值h,如果候选计划的边际收益大于h,则在候选计划中加入一个启动子模块。通过逐步降低阈值,以便包含更多的启动子模块。该方法加速了上限估计,这得益于两个特性:首先,排序过程不需要在每次迭代中重新运行。只需要更新在Sa中受到新启动子模块v影响的启动子模块v的位置,即,它们与v共存于一个MRR集合中。第二,当阈值足够小,算法终止并返回一个计划即使作业的数量低于k,第二个特性严格界限的数量τ(∙)评估。

    5.1 实验设置

    数据集:我们对以下三个真实数据集进行了实验。

    (1)(数据集1):电力技术论坛是一个电力技术共享数据集,来自一个在线网站,该网站包含一个社交网络和一个记录用户投票活动的行动日志。

    (2)(数据集2):电力学术论文图谱是一个从在线学术搜索服务下载的dblp合著图。

    (3)(数据集3):微博电力信息是由用户在微博中的转发和回复操作构建的社交网络。

    基于数据集1的动作日志,采用TIC模型来学习数据集1的主题感知影响概率p(e|z)(见第三节)。数据集1的主题数量设置为20个。由于数据集2中dblp没有操作日志,我们设置使用研究字段作为主题,并通过使用主题对两位作者的相关会议进行分类来计算p(e|z)。对于微博涉电力数据集3,将单个用户的所有涉及电力视为一个文档,并将LDA应用于所有文档,以获得每个用户的主题分布。给定一条边e=(u,v),根据u和v的主题分布计算p(e|z)。数据集的统计数据列于表2。

    表2:统计数据集

    比较方法:目前没有OIPA的工作。因此,将以下基线与本文提出的方法进行比较。

    IM:在图G上基于IC模型运行最先进的IM算法来获得k个种子节点,随后,对使用S传播每个信息活动片段t∈T之间的采用效用进行比较,选择效用最大的信息活动片段由S传播。

    BAB:本文提出的分支定界算法如4.2节。当上界和最佳解之间的效用差在1%的错误率以内时,终止搜索。

    参数与查询:实验的参数为:

    (1)k为活动t选择的启动子模块的数量。

    (2)l为t中信息活动片段的数量。对于每个信息活动片段,通过均匀采样非零的主题维度来生成主题向量。

    (3)α,β是逻辑模型中的参数。

    解决β= 1,不同β/α测试的性能对提高难度水平为用户采取的想法,选择10%用户从V在现实中并不是所有的用户都有资格为促进广告。参数设置表3中可以找到。

    表3:实验参数

    实验设置:所有的方法都是用c++实现的,运行在Ubuntu 14.04服务器上。

    5.2 校准参数ε

    BAB-P逐步降低了阈值h启动子模块是包含在解决方案(1+ε)的比率。检查参数ε如何影响BAB-P质量解决方案。结果如图1所示。采用效用ε上升时显示一个下行的趋势。因此,更大的ε是,越容易包含启动子模块,这可能会降低效用。当降低ε从0.1到0.9,采用效用下降了0.08%,6.6%和1.4%,结果与理论结果提出了定理3。其余部分的实验,修复参数ε是0.5

    图1:数据集1、2、3的校准参数ε

    5.3 改变启动子模块的数量k

    比较两种方法在k值变化时的实验结果如图2所示。所有提议的方法的效用都随着k值的增大而增加,这是预期的,因为更多的推广者会使活动信息片段更广泛地传播,并导致更高的推广活动的采用效用。IM和TIM的效用不如BAB和BABP. IM的效用最差,因为它完全忽略了不同主题分布的信息活动片段的影响行为。与IM相比,TIM有更好的结果,因为它选择了那些将单个信息活动片段的传播最大化的启动子模块。然而,如果用户只收到一篇信息活动式的文章,那么他们采用该活动的可能性就很低,因此总体采用的可能性也很低。我们提出的BAB和BABP作为分支和约束框架,取得了较好的采用效果,为其提供了理论保证。最重要的是,BABP证明了与BAB具有竞争力的解决方案质量,与BAB具有几乎相同的采用实用程序。因此,在BABP中引入的渐进上界估计技术即使在经验值较大的k下也没有显示出明显的质量下降。

    图2:改变启动子模块的数量k(数据集1、2、3)

    所有提出的方法的效率结果也显示在图3中(y轴在对数刻度图中)。当更多的启动子模块被选择到一个计划中时,所有比较的方法的运行时间都会增加。IM和TIM是高效的,因为它们只是在生成的样本上运行贪心最大覆盖算法。巴布需要更长的运行时间,因为它需要多次调用ComputeBound(•)功能,每一个都是一个贪婪的过程来选择启动子模块,直到程序结束(算法1)。BAB-P优化计算ComputeBound(•)通过先进的上界估计技术提前终止和展示了卓越的效率(2)算法,实现24 x, 22 x, 8.1倍加速效果与巴布在数据集1相比,数据集2和数据集3。对于更大的k,BABP显示了巨大的可伸缩性,并具有与TIM相同的性能。这是因为BABP不需要扫描所有候选启动子模块来获得一个上限估计,即使选择的启动子模块少于k个,也可以提前终止。相反,TIM、IM和BAB需要迭代地扫描所有候选对象,因此对于较大的k,它们的性能下降比BABP更严重。

    图3:改变信息活动片段数量(数据集1、2、3)

    5.4 改变信息活动片段的数量

    通过改变信息活动片段的数量来进行宣传活动的效果。当更多的信息活动片段被推广时,所有比较方法的效用都增加了。这是因为,采用概率用户u随信息活动碎片的数量影响β= 1时,模型由Eqn定义与BAB和BABP相比,IM和TIM的质量随着体积的增大而降低,因为它们不能优化多个信息活动片段。以tweet为例,当l = 5时,BAB分别对IM和TIM获得71x、2.9x的质量增益,而babp对BAB具有竞争优势。值得注意的是,IM和TIM在数据集3上的质量非常差. 这是因为非零主题的平均影响概率(即在数据集中,p(e|z))的所有边仅为1.5,而数据集3的主题比数据集1和数据集2多. 优化单个信息活动片段导致低影响传播,从而产生较差的整体适应效用。

    所有比较方法的运行时间都随着规模的增大而增加,性能趋势与之前的观察结果一致:考虑到具有竞争力的解决方案质量,babp能够在BAB上实现显著的效率改进。尽管IM和TIM具有更好的总体性能,但这是以显著降低效用为代价的。

    5.5 改变比率β/α

    实验结果的比较方法和不同β/α是图4所示。当该比率设置为较大值时,其效用呈上升趋势。因为解决β= 1,β/αα下跌时上涨。当这种情况发生时,用户v采用活动的概率增加,这将导致更高的总体效用。

    图4:改变比率β/α(数据集1、2、3)

    猜你喜欢 效用模块模型 自制空间站模型小天使·三年级语数英综合(2022年4期)2022-04-28锐词宝典新作文·高中版(2021年5期)2021-08-23Module 2 Highlights of My Senior Year时代英语·高二(2021年4期)2021-07-29Module 4 Music Born in America时代英语·高二(2021年4期)2021-07-29中医特色护理技术在老年高血压患者中的应用效用观察中国药学药品知识仓库(2021年18期)2021-02-28博弈论在环境问题中的应用商情(2019年1期)2019-03-18模型小览(二)汽车导报(2017年5期)2017-08-03圆周运动与解题模型求学·理科版(2017年1期)2017-03-02离散型随机变量分布列的两法则和三模型中学生数理化·高二版(2016年4期)2016-05-14必修模块相关知识过关训练中学生数理化·高一版(2016年6期)2016-05-14

    相关热词搜索:舆情 影响力 模型

    • 范文大全
    • 说说大全
    • 学习资料
    • 语录
    • 生肖
    • 解梦
    • 十二星座