网站首页 公文大全 个人文档 实用范文 讲话致辞 实用工具 心得体会 哲学范文 总结范文 范文大全 报告 合同 文书 信函 实用
  • 汇报体会
  • 节日庆典
  • 礼仪
  • 毕业论文
  • 评语寄语
  • 导游词
  • 口号大全
  • 其他范文
  • 百花范文网 > 实用范文 > 其他范文 > 基于无人机集群智能自组网的典型协同应用

    基于无人机集群智能自组网的典型协同应用

    时间:2023-03-24 12:45:04来源:百花范文网本文已影响

    危 维,付 澍,屈毓锛

    (1.重庆大学 微电子与通信工程学院,重庆 400044;
    2.南京航空航天大学 电子信息工程学院,江苏 南京 211106)

    在21世纪初,美军在公布的无人系统路线图中指出无人机在未来对于全球信息的重要性,以及无人机自组网将会是未来无人作战的发展方向,无人机自组网的概念就此提出[1]。随着第五代移动网络(5G)于2020年开始投入商用,第六代移动网络(6G)逐渐成为全球各国着力部署的方向,并被寄望于实现万物互联无时无刻、无处不在的效果[2]。然而,目前由于传统地面基站的铺设难度及成本问题,很难实现诸如山地、湖泊、沙漠等偏远地域的网络全覆盖。此外,面对移动通信数据量的不断剧增,传统地面基站难以支持突发的热点流量需求,例如大型国际活动、灾害场景下的应急通信等。传统的地面基站已很难满足6G无线通信网络全覆盖的要求,非陆地网络成为构建空天地海一体化、全覆盖网络的有效补充。而无人机[3](Unmanned Aerial Vehicle,UAV)以其固有的灵活性、机动性、资源可搭载性[4]等特点,被认为是未来无线网络中不可或缺的组成部分。

    近年来,无人机技术步入了快速发展阶段,在物流、农林植保、巡检救援等领域均已发挥重要作用。由于无人机自身体积较小,造价相对便宜,对使用环境要求较低,可广泛应用于各领域。而随着无人机应用场景的不断扩大,对无人机的智能化要求也随之不断提高。

    受到无人机悬停高度、其与地面用户的最小仰角和无人机自身能耗限制等因素的影响,单个无人机的服务覆盖范围、飞行距离及其可搭载的资源均受到限制,难以同时满足大量用户的异构需求。为解决此问题,无人机集群的概念被引入。无人机群由众多小型无人机组成,有望提供高度协作和智能化的作业,无人机集群将无人机在无线通信领域的应用进一步推进[5]。但当无人机集群执行大规模任务时,不同的环境及任务对无人机的性能及要求也不相同,任务的规划分配存在挑战[6],应用场景及需求的不断扩大也对无人机的智能化提出了更高的要求。

    大数据时代,许多复杂优化问题已无法通过传统的优化方法在短时间内求得最优解或近优解[7],而随着计算机算法、算力日益强大,人工智能(Artificial Intelligence,AI)已成为高效解决众多优化问题的主流,并在如图像处理、自然语言识别和电子游戏等领域广泛应用[8-11]。人工智能与机器学习技术将与6G无线通信网络高效融合以实现更好地网络管理与自动化。通过机器学习(Machine Learning,ML)技术,人工智能可以在无人机集群协同的应用中提供实用且有竞争力的性能来驯服其网络规划和优化的复杂性,从而实现无人机集群智能自组网并基于此完成无人机群的协同应用,助力“网联天空”的实现。其中,强化学习(Reinforcement Learning,RL)在训练过程中无需大量已存在标签的数据,而是在与环境不断的交互中获取数据并从以往的经验中学习进而做出最佳的决策。在实际应用场景中,机器所面临的环境往往是复杂且未知的,强化学习在与环境的交互中学习,这一特性能使机器良好地学习并适应陌生环境,在面临不同环境时均能做出使系统增益最大的最优策略。此外,在机器学习的算法中,深度学习(Deep Learning,DL)可利用深度神经网络的结构完成对数据的训练和预测,具有强感知能力。将强化学习与深度学习结合便形成了深度强化学习(Deep Reinforcement Learning,DRL)。DRL同时具备强化学习的决策能力与深度学习的感知能力,在解决高维度的复杂问题上拥有巨大潜力[12]。

    无人机集群协同工作结合智能算法将成为6G实现万物互联目标的重要技术。为了提高无人机集群协同的能量效率,本文将考虑无人机集群为突发热点流量需求的用户提供服务的场景,按照服务过程对无人机集群用户调度及路径规划、多无人机三维悬停位置部署和无人机网络智能管控架构三方面的高能效无人机集群协同应用的模型和原理进行介绍。

    随着经济快速发展,我国国际地位不断提升,国民生活及娱乐方式也越发丰富,如举办冬奥会等国际大型赛事、假期出行旅游人次大幅增加等情况,在局部地区产生了突发的大量热点流量需求,给传统地面基站带来巨大的负荷压力,用户的网络体验难以得到保障。在此情况下,无人机可凭借其灵活移动性及资源的可搭载性,搭载微型基站作为空中基站部署[13],有效补充现有地面蜂窝系统,响应突发热点流量的需求。

    如图1所示,无人机群在接收到为某一突发热点流量需求的区域用户提供网络服务的任务后,系统将先对每一架无人机进行用户分配调度与路径规划,接着各无人机根据规划的路径飞到各自的目标用户簇上空。当无人机为目标区域提供下行数据服务时,无人机基站的三维悬停位置将直接影响到其服务覆盖范围及用户信道质量,因此需在考虑相邻用户簇间干扰的情况下,以最大化系统吞吐量为目标联合优化各无人机的最佳三维悬停位置。当无人机飞到目标区域并悬停在最佳三维悬停点后,将为其对应的目标用户提供下行数据服务。由于各无人机可搭载的资源有限,可能出现无人机未搭载部分目标用户需求的网络数据的情况,为解决此问题,无人机间可通过无人机通信链路进行数据共享传输,从而在该区域用户上空形成无人机通信网络。

    图1 无人机集群为突发热点流量需求用户提供服务示意图Fig.1 Schematic diagram of UAV cluster providing services for users with sudden hot traffic demands

    2.1 基于业务优先级的用户调度

    在实际情况中,突发热点流量需求的用户数量较多且需求呈现异构性,由于系统成本原因,有限数量的无人机可能无法同时覆盖所有用户的突发需求,因此需要对无人机服务的用户或区域进行选择和划分。

    在Fu等人[14]提出的无人机自组网架构中,考虑无人机组网被重新安排多次,在每一次安排中,基于无人机的无线网络只能为系统中的部分用户提供服务。在此情况下,首先基于用户的业务优先级对用户进行选择,使无人机群在能量限制下优先服务业务优先级高的用户,提高系统能量效率。

    2.2 路径规划算法

    用户调度完成后,无人机群需要飞到相应的用户簇上空。无人机的飞行路径将直接影响其能耗,若飞行路径过长将会导致无人机消耗大量能量用于飞行而非服务用户,甚至出现能量无法支撑其到达用户簇或返航的情况。因此,需要对无人机群的飞行路径进行合理有效的优化和规划,以提高系统能量效率。

    路径规划算法大致分为精确算法、启发式算法以及智能优化算法三类[17]。相对于智能优化算法,精确方法及启发式算法属于传统路径规划算法,常见的传统路径规划算法主要有人工势场法[18]、A*算法[19]等。传统方法在解决路径规划问题时存在很多局限,精确算法可以通过不断搜索最终得到问题的最优解,但效率低且受限于问题的规模,当目标函数和约束条件较为复杂时,精确方法很难给出有效解。启发式算法相较于精确算法在面临复杂、规模较大问题时可更高效率地搜索到结果,但易陷入局部最优。鉴于此,越来越多的研究利用智能优化算法求解无人机集群路径规划,其中应用最广泛的三种方法分别是蚁群算法、粒子群算法、遗传算法[20]。

    蚁群算法(Ant Clony Optimization,ACO)是一种仿生算法[21],根据长时间内蚁群在较短路径上积累的信息素浓度较高的原理来寻找最短路径。蚁群算法最早被用于解决旅行商问题(Traveling Salesman Problem,TSP)并取得了较好效果,但其性能受信息素的更新模型影响,缺乏有效的更新模型,易使种群丧失多样性而陷入局部最优。

    粒子群优化(Particle Swarm Optimization,PSO)算法[22]源于对鸟群捕食行为的研究,其核心思想是利用群体中的个体对信息的共享使整个群体的运动在问题求解空间中产生从无序到有序的演化过程,从而获得问题的可行解。PSO无需复杂的参数调节,前期收敛速度快,但后期收敛速度慢,精度不高。

    遗传算法(Genetic Algorithm,GA)源于达尔文的进化论[23],模拟了物竞天择、适者生存的自然选择规律,通过物种遗传、交叉、变异进化出问题的最优解。算法的优势在于不受问题领域限制,应用广泛,但存在易早熟、陷入局部最优解的问题。

    2.3 基于指针网络的无人机集群路径规划

    在前文提及的用户调度及无人路径规划中,其思想是先根据用户业务优先级对无人机群服务的用户簇进行确定和选择,然后再对无人机飞向目标用户簇的路径最小化问题进行求解。

    若不将用户选择与路径规划分离,而是对用户簇选择及无人机飞行路径进行共同优化,即在无人机能量限制下输出选择服务的用户及无人机飞行路径,使系统收益最大而无人机飞行距离最短,一个用户带来的收益即该用户被无人机服务的优先级,例如数据量等。因此,无人机为用户提供服务的路径优化问题实际上是背包问题(Knapsack Problem,KP)和旅行商问题的组合,定义为一个定向问题[24](Orienteering Problem,OP)。定向问题即顶点选择和确定选定顶点之间最短哈密顿路径的组合问题,已被Gloden证明了是一类经典的NP-hard问题[25]。

    基于RNN的指针网络(Pointer Network,PN)由Sequence-to-Sequence 模型和Attention 模型结合改进得到,适宜于变长序列收集,被广泛应用于解决组合优化问题,此处可有效地迁移到解决无人机为用户服务的路径规划问题中来[26]。

    图2展示了基于指针网络的无人机路径规划,主要由指针网络和无人机飞行服务场景两部分组成,无人机根据指针网络的输出确定要服务的用户簇节点及服务顺序。

    图2 基于指针网络的无人机路径规划示意图Fig.2 Schematic diagram of UAV path planning based on pointer network

    如图2所示,指针网络主要包括一个编码器和一个解码器,分别由多层具有学习了不同时间间隙数据间联系特征的长短期记忆网络(Long Short-Term Memory,LSTM)组成。假设Einputs=Ij(j=1,2,…,n)为编码器不同时序的输入序列,(e1,e2,…,en)和(d1,d2,…,dm)分别为编码器和解码器不同时序的隐藏层状态。将输入序列Einputs经过n+1步输入到编码器中,得到每一步输入对应的编码器部分的网络隐藏层状态ej,当输入序列输入完毕后,将得到的隐藏层状态集合Encoder=(e1,e2,…,en)编码得到中间相量后输入解码器,得到解码器部分的隐藏层状态Decoder=(d1,d2,…,dn)。对于解码过程,每一步解码根据ei及dj计算输入序列对当前输出的影响,将计算结果经过softmax归一化处理后得到注意力矩阵并选择矩阵中数值最大的指针作为输出,该指针的具体值即为输入序列中某元素的索引值。将指针网络应用到对无人机飞行轨迹的规划中,为了实现高能效的系统目标,将用户簇中心坐标集合与其为系统带来的收益值集合作为输入序列进入编码器,而在解码时依次将注意力矩阵中数值最大的指针作为输出,指针的具体值即为用户簇节点的索引值。根据输出的索引值及其输出的先后顺序可确定无人机要服务的用户节点及服务顺序,即无人机的飞行轨迹。基于以上描述,针对本文场景,指针网络模型具体的输入输出为:

    输入:Dcoords={(x0,y0),(x1,y1),…,(xn,yn)}表示无人机起始位置坐标Dbp=(x0,y0)和待服务地面用户簇的中心位置坐标Dcoords={(x1,y1),(x2,y2),…,(xn,yn)}的集合。令无人机在起始点处的收益为R0=0,收益集合为Rreward={R0,R1,…,Rn},具体的收益可根据系统目标进行合理设计。位置坐标集合Dcoords和收益集合Rreward将共同组成指针网络的输入Einputs={(x0,y0,R0),(x1,y1,R1),…,(xn,yn,Rn)}。

    输出:指针网络的输出为Doutputs={D0,D1,…,Dm},即无人机对地面用户簇服务的顺序,其中,Dm为对应输入Einputs中的元素索引值,m为无人机为其提供服务的地面用户簇数量。

    如前文所述,在无人机飞出之前,需对无人机群要服务的用户进行调度。当无人机群飞到为其调度的用户簇上空时,无人机群的三维悬停位置[27-28]将直接影响其覆盖范围内所有用户的信道质量乃至系统吞吐量,从而影响到系统的能量效率,因此无人机群的三维悬停位置需要进行精心设计与优化。

    对于单个用户,当环境参数确定时,基于概率LoS/NLoS混合模型的空对地信道增益可以通过满足无人机和用户间的最佳仰角达到最大。然而,当多架无人机为多个用户簇服务时,无法同时满足无人机与每个用户间都形成最佳仰角,且存在相邻用户簇间的无线干扰,多无人机的三维悬停位置优化问题将变得复杂。在面对有大量参数的复杂优化问题时,人工智能算法具有很大优势,可将其构建为多智能体深度强化学习[29]问题进行求解。但在多智能体强化学习中,每一个智能体的决策会对其他智能体带来环境的改变,即训练时环境不平稳。多智能体学习主要包含三种方式:

    ① 集中式学习:系统被视为一个整体并利用单智能体算法来学习,解决了环境的非平稳问题。集中式学习要求智能体之间能够保持通信,使系统具备全局视角,对于无通信、大规模动作空间的问题不适用。

    ② 分散式学习:各智能体独立地训练各自的策略后独立地执行,没有考虑智能体间的交互与影响。分散式学习忽略了环境的不稳定性,只适用于少数简单的环境。

    ③ 集中式学习,分散式执行:是集中式学习与分散式学习的结合。智能体之间存在交互和通信,在训练时具备全局视角、共享信息,高效地学习全局策略,但训练完毕后各智能体独立分散地执行决策。

    本节将主要介绍利用集中式学习中的近端策略优化(Proximal Policy Optimization,PPO)算法和集中式学习、分散式执行中的多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法来解决多无人机三维悬停位置的优化问题。

    3.1 基于PPO的多无人机基站三维悬停位置部署算法

    采用概率视距路径损耗模型来对空对地信道进行建模并表示出无人机基站k和地面用户u之间的信道增益后,可以得到考虑了干扰的无人机基站k和地面用户u的数据率Rk,u,进而,最大化系统吞吐量的多无人机基站三维部署问题,可转变为对所有ρk,uRk,u求和并求最大值的优化问题。

    PPO算法是对梯度策略(Policy Gradient,PG)算法的改进[31]。在PG算法中,若更新步长过大,则会导致学习到的策略不断波动难以收敛,若更新步长过小,会消耗大量的时间成本,PPO的提出即是为了解决PG算法中更新步长难以确定的问题。在PPO的Actor-Critic网络中,Critic网络估计状态值函数且其优化目标仍然是最小化均方误差损失函数。而PPO中的Actor网络与标准的策略梯度算法不同,PPO基于重要性采样(Importance Sampling)的思想,在每次更新策略时利用旧策略πθold采集的轨迹数据以及相应的优势函数,对策略πθold进行优化,但为了避免新策略与旧策略相差太大,PPO对代理目标(Surrogate Objective Function)加上了约束,得到了截断代理目标。截断代理目标引入了用来控制信任域大小的超参数ε,保障新策略不会偏离旧策略太多,超参数ε越大,智能体策略更新的信任域越大,更加偏向于探索;
    反之,策略更新的信任域越小,智能体学习越谨慎,PPO原理如图3所示。

    图3 基于PPO的多无人机基站三维悬停位置部署Fig.3 3D Hovering position deployment of multi-UAV base stations based on PPO

    使用PPO算法对多无人机三维悬停位置部署问题求解,设计马尔可夫决策过程[32]的状态空间、动作空间、奖励函数如下:

    ② 动作空间:动作空间包含各无人机基站在下一个时间步的三维位置q′k,∀k∈K。则动作空间表示为A={q′1,q′2,…,q′K},且与状态空间维度相同,为(3×K)个维度。

    ③ 奖励函数:为了使系统吞吐量最大化且防止无人机基站间的碰撞,奖励函数包含t时刻吞吐量Ct及无人机基站间距离的惩罚项ξt。如果存在任意两无人机基站的距离小于一定数值将会受到惩罚,相距越近,惩罚值越大,则时间步t的奖励函数rt可表示为如下形式:rt=αCt-βξt,α、β为用来调整奖励中各项到合适数量级的正数。

    基于对马尔可夫决策过程的建模,智能体可以执行动作获取奖励值并完成状态转移。PPO算法中智能体每收集一定时间步的状态转移轨迹,则对Actor和Critic网络的参数进行一轮更新。当训练完成后,即可得到最大化系统吞吐量的多无人机基站三维部署,提高系统能量效率。

    3.2 基于MADDPG的多无人机基站三维悬停位置部署算法

    MADDPG属于集中式学习、分散式执行的多智能体强化学习方法,可被用来有效地优化多无人机三维悬停位置[33]。MADDPG是一种基于Actor-Critic框架的算法,其目标是从与环境交互的经验中学习最优联合策略,使得智能体累积联合奖励最大。MADDPG结构示意如图4所示,在环境中一共有K个无人机出行执行任务,即K个智能体。各智能体均采用DDPG算法框架,由估计Actor-Critic网络与目标Actor-Critic网络组成。其中Actor网络实现从状态到行动的映射,Critic网络对行为者输出的行动进行评分[34]。

    图4 基于MADDPG的多无人机基站三维悬停位置部署Fig.4 3D Hovering position deployment of multi-UAV base stations based on MADDPG

    建立多智能体的MADDPG算法,需要确定三个要素,即环境空间、动作空间、奖励函数,具体设计与上节中基于PPO机制的马尔可夫决策过程相同。在集中式学习中,每个智能体的Critic网络中需要考虑其他智能体的状态和动作。一旦训练完成,每个智能体只需要根据自己的状态来执行动作。以无人机k为例,在t时刻无人机k当前的状态为st,Actor网络输出一个动作at,即无人机位移到的下一个位置,从环境中获得一个关于吞吐量的奖励rt。通过执行行动at,无人机k转移到下一个状态st+1,相应的元组(st,at,rt,st+1)被作为经验存储在经验回放池中。估计网络将从经验回放池采样经验,通过小批量梯度下降法进行训练,目标网络通过复制评估网络中的参数来更新。

    当无人机群到达并悬停在最佳三维悬停位置处之后,无人机群需要对用户提供相应服务。由于无人机可搭载资源的有限性及用户需求的异构性,可能出现单个无人机并未搭载其对应的部分用户需求的情况。为保证无人机集群更高效节能地为用户提供服务,需要搭建无人机网络[35],提出无人机网络智能管控架构如图5所示。无人机间可通过专用信道相互连接共享资源,形成资源池。另外,由于无人机数量有限,即使形成了共享资源池,其计算能力和资源也是有限的。在此情况下,无人机可与地面基站相连,将计算任务在基站与无人机网络间进行权衡或从基站处获取缺乏的目标资源。若无人机与基站间的距离较远且存在非视距信道,可借助卫星作为中继,实现基站与无人机间的信息中继传输。

    图5 无人机网络智能管控架构Fig.5 UAV network intelligent management and control architecture

    与此同时,在无人机群结束一次服务后开始下一次服务前,存在一段无人机群的配置时延,进行无人机群的调度和飞行。在配置时延期间,每个用户的业务优先级将会被更新,用户将业务优先级广播给附近的无人机,任意的无人机可以通过专用通道与附近的无人机连接。这样的连接可以合并附近的无人机计算资源,并使无人机群能根据业务优先级确定无人机群的下一个盘旋位置和覆盖范围。当部分无人机距离较远无法直接通过专用通道相连时,为了扩展用户的业务优先级信息,无人机可向基站传输覆盖其用户的业务优先级信息后由基站将收到的信息广播给系统中的其他无人机。当无人机与基站距离较远时,卫星可作为中继。

    对于无人机群的路径规划问题,本文介绍的指针网络为无人机的路径规划提供了一个很好的解决方案,但仍然存在一些挑战。首先,在使用无线充电器缓解无人机群能源短缺问题的情况下,在为无人机群的飞行轨迹实施指针网络之前,应研究充电器的位置。这种规划涉及复杂的因素,如平均用户分布、地理条件、无人机的最大可用能量等。其次,在指针网络中应考虑无人机群之间的避障问题。

    对于多无人机基站的三维悬停位置部署,除了DRL本身具有的低样本利用率和复杂的奖励函数设计问题外,在无人机群三维部署中的应用仍然存在一些挑战。例如,网络的高动态性,尤其是用户的流动性,导致无人机群的静态部署会失去最佳效果。因此,要求动态部署无人机群,以便无人机群能够根据用户的位置和业务需求实时调整其三维悬停位置,从而保持最佳性能。

    在一次服务周期中,无人机需要在配置时延内完成调度及飞行,在服务时延内为用户提供服务。无人机的服务时延越大,可使用于无线传输的能耗越小,但过大的服务时延会导致无人机在服务完用户后的时间浪费。此外,在最大容忍时延的限制下,服务时延的增大会导致服务周期的减少,这将导致被服务的用户数量及需求减少。相反,服务时延减少会使服务周期数增加,则无人机群可以向更多用户提供服务,但在最大容忍时延内的总服务时间将减少,系统的吞吐量和能量效率将会降低。因此,在无人机能量支持的最大活动时延约束下,需对配置时延及服务时延进行权衡以使系统能效最大化。在未来的工作中,可以采用一些人工智能算法对配置时延和服务时延进行优化,如强化学习等。

    无人机集群协同执行任务可打破地面环境、自然条件等的约束,作为地面网络的有效补充,能高效及时地完成复杂及突发任务,是未来无人机应用的重要发展方向,也是实现6G愿景中网络一体化的重要技术。本文考虑无人机集群为突发热点流量需求区域的用户提供服务的场景,按照服务过程将无人机集群协同服务依次分解为无人机集群用户调度及路径规划、多无人机三维悬停位置部署及无人机网络智能管控架构三方面的应用。为提高系统能量效率,在各应用中进行了模型构建并提出了相应的智能优化算法。最后,本文指出了无人机集群智能自组网协同应用中面临的挑战和未来研究方向,希望为后续研究提供参考,推动无人机集群智能自组网协同工作的进一步发展。

    猜你喜欢 指针时延集群 垂悬指针检测与防御方法*软件学报(2020年6期)2020-09-235G承载网部署满足uRLLC业务时延要求的研究通信电源技术(2020年8期)2020-07-21海上小型无人机集群的反制装备需求与应对之策研究军事运筹与系统工程(2019年4期)2019-09-11基于GCC-nearest时延估计的室内声源定位电子制作(2019年23期)2019-02-23一种无人机集群发射回收装置的控制系统设计电子制作(2018年11期)2018-08-04为什么表的指针都按照顺时针方向转动广东第二课堂·小学(2017年9期)2017-09-28Python与Spark集群在收费数据分析中的应用中国交通信息化(2017年3期)2017-06-08勤快又呆萌的集群机器人知识就是力量(2017年2期)2017-01-21FRFT在水声信道时延频移联合估计中的应用系统工程与电子技术(2016年7期)2016-08-21简化的基于时延线性拟合的宽带测向算法现代防御技术(2016年1期)2016-06-01

    相关热词搜索:无人机 组网 集群

    • 范文大全
    • 说说大全
    • 学习资料
    • 语录
    • 生肖
    • 解梦
    • 十二星座