每周文章分享
2023.08.21-2023.08.27
标题: Deep Reinforcement Learning for Flocking Motion of Multi-UAV Systems: Learn From a Digital Twin
期刊: IEEE Internet of Things Journal, vol. 9, no. 13, pp. 11141-11153, 1 July1, 2022.
作者: Gaoqing Shen, Lei Lei , Zhilin Li, Shengsuo Cai, Lijuan Zhang, Pan Cao, and Xiaojiao Liu.
分享人: 河海大学——祝远波
01
研究背景
无人机的成熟应用领域越来越广泛。然而,在多无人机系统中实现群体飞行运动的问题仍然具有挑战性。传统的群体运动方法通常针对特定环境进行设计,并且对于未知和随机环境的适应性有限。此外,这些方法往往假设能够获取完整的环境信息,但在实际应用中,这种假设并不切实际。因此,有必要采用新的方法来实现多无人机系统的运动。文章提出了一种基于深度强化学习(DRL)的方法来实现多无人机系统的群体运动。为了解决DRL在群体运动场景中的模拟到实际应用的问题,提出了一种数字孪生(DT)辅助的DRL训练框架。这个框架通过在DT中学习,实现了DRL模型快速部署到真实无人机上的能力,同时也可以利用DT对模型进行持续更新和改进。为了解决群体运动问题,文章还提出了一种基于行为耦合深度确定性策略梯度(BCDDPG)的演员-评论家DRL算法。
02
关键技术
在本文中,重点研究的是如何结合 DRL 和 DT 来实现多无人机在未知和随机环境中的群体运动。旨在提高多无人机系统的协同能力,并为 DRL 方法探索更有效的训练范式。因此,建立了多无人机系统的 DT,用于训练基于 DRL 的集群运动方法。
该方法的创新和贡献如下:
1)提出了一种基于数字孪生技术的DRL训练框架,用于解决多无人机系统的集群运动问题。该框架可以在未知和随机环境中应用DRL,并通过数字孪生模型实现从仿真到实际场景的转换。
2)提出了一种改进的DRL算法,名为行为BCDDPG,用于解决集群运动问题。该算法受到动物集群行为的启发,实现了多无人机系统的集体协作效果。
3)进行了大量的模拟实验来评估BCDDPG算法的性能。实验结果表明,与现有方法相比,BCDDPG算法在平均奖励、到达率和碰撞率等方面表现更优。
03
算法介绍
(1)系统模型
图1 系统模型
图1展示了文章的系统模型。
该框架由四部分组成:
构成框架基础的物理实体:小型无人机和任务环境组成的多无人机系统被称为物理实体。
通信桥梁:它连接物理实体和数字模型,是两者之间的连接桥梁;可以通过4G/5G或卫星等方式建立。连接是双向的,为群集运动问题提供实时服务。一方面,物理实体将传感器数据传输到中央服务器进行数字模型构建。另一方面,中央服务器将DRL模型生成的控制策略输出到物理实体,以进行无人机合作。
数字模型:它是物理实体在网络空间的镜像;建立的多无人机系统的超保真数字模型。为了保持数字模型的保真度,中央服务器在每个时间步用新数据更新数字模型。
DRL模型:它提供智能决策服务,训练过程中,从数字模型中提取状态信息。及时输出集群运动的控制策略。
(2)BCDDPG
图2 基于DT的BCDDPG的分布式决策框架
图2展示了基于DT的BCDDPG分布式决策框架。BCDDPG是基于DRL思想的一个算法,处理连续动作空间。演员网络直接根据当前状态输出预期动作,评论家网络用于评估动作的质量。这两个网络使用梯度下降进行训练,并使用目标网络来提高稳定性。经验回放机制用于减少数据相关性,提高模型的稳定性。
在BCDDPG中,将状态信息分为三个类别:目标位置、邻居位置/速度和障碍物位置。每个子演员网络分别处理这些类别的信息,然后将它们的输出进行组合。其中,一个子演员网络中使用了LSTM网络来更好地处理时间信息。
图3 BCDDPG中演员和评论家的网络架构
图3展示了BCDDPG中演员和评论家的网络架构。演员和评论家网络采用多个子演员网络和LSTM网络的结构使得BCDDPG能够生成智能决策并实现无人机之间的协同行动。
无人机的最终行为取决于这三类状态信息的综合影响,而影响权重在集群运动过程中是随时间变化的。如果将所有的状态信息直接输入到一个演员网络中,它可能很难正确区分这些状态信息,从而输出不理想的策略。事实上,无人机的最终行为可以看作是三种行为的耦合,即前进行为、连通性维护行为和避障行为。如图3所示,BCDDPG使用三种不同的子因子网络来处理三类状态信息。子因子网络1、2和3将s_f、s_c和s_o作为输入,并输出a_f、a_c和a_o作为相应的动作。这种先分解后耦合的方式可以帮助行动者更好地理解无人机所处的环境状态,从而生成更高质量的策略。
BCDDPG的另一个创新是在行动者网络中使用了RNN。在下一步骤中,正确预测邻近UAV的轨迹以保持与它们的连接是非常重要的。然而,邻域无人机的轨迹预测不仅取决于其先前的状态信息,还与其历史状态信息相关。RNN是一种以序列信息为输入的神经网络,对于挖掘历史数据中的时间信息非常有效。从复杂度的角度来看,由于RNN的网络结构更为复杂,其复杂度要高于全连接(FC)网络。RNN的复杂度为O(n*d^2),其中n为序列长度,d为表示维度。为了最小化模型的复杂度,将RNN的序列长度设为4(即使用前四步的状态信息进行预测),并且只在子网络2中使用RNN,以分别减小n和d。为了避免反向传播学习RNN过程中的梯度消失问题,采用LSTM网络,引入门机制控制特征流。针对不同的子状态信息采用不同的网络结构,进一步提高了演员网络对状态信息的理解能力,从而产生更好的策略。
文章另一项创新点在于奖励函数的设置:
奖励函数:
无人机i在时间步长t的整体奖励函数为
1)无人机i在时间步长t时接近目标的正奖励被定义为
2)无人机i在时间步长t与障碍物或邻居碰撞的负奖励定义为
其中,
3)无人机i在时间步长t与邻居合作的正奖励定义为
4)集群运动任务的需要的步数奖励定义为
5)当无人机太接近边界时给予惩罚的边界奖励,定义为
奖励函数中的参数w_appro、w_obs、w_nei、w_connec、w_hor、w_ver均为正常数,具体在仿真参数设置中展示。
04
实验结果分析
1. 仿真参数设置
图4 算法的仿真地图
表1 BCDDPG算法的参数
对比算法:(1)DDPG (2)APF ( 人工势场 )
性能评价指标:
(1)平均到达率:衡量无人机系统完成集群运动任务的能力
(2)速度一致性:评估无人机之间速度的一致性程度
(3)平均碰撞率:衡量无人机与障碍物或其他无人机之间发生碰撞的概率
(4)平均偏离率:衡量无人机与预定路径之间的偏离程度
(5)平均行程距离:评估无人机系统在完成任务时的平均行进距离
(6)平均行程时间:衡量无人机完成集群运动任务所需的平均时间
(7)平均邻居距离:评估无人机与邻近无人机之间的平均距离,反映无人机群集的互动程度
(8)归一化平均速度:评估无人机系统的平均速度水平
2. 算法对比
图5 随着障碍物增加算法性能变化对比图
与 DDPG 和 APF 相比,BCDDPG 用更少的时间、更高的能效和更好的协同效应来实现集群运动任务。BCDDPG 在平均到达率、平均碰撞率、平均偏离率等性能指标上表现更好。为了更好地说明 BCDDPG 相对于传统 APF 方法的优势,设计了一个特定的环境,分别观察采用 BCDDPG 和 APF 作为集群运动方法的无人机的运动轨迹和运动状态。
图6 不同时间APF算法构建的集群轨迹中集群的位置信息
图7 不同时间BCDDPG算法构建的集群轨迹中集群的位置信息
图 6 和图 7 给出了 BCDDPG 和 APF 控制的多无人机系统在图 5相同环境下不同时间的运动状态。一次迭代的步数为 150 步,且前几步没有障碍物。因此,选择无人机在 60 秒、75 秒、90 秒和 120 秒时的运动状态作为观察对象(一步仅为一秒)。可以看到,当运动时间为 60 秒时,无人机遇到了第一个需要避开的障碍物。BCDDPG 和 APF 都成功地驱动无人机避开了障碍物。BCDDPG 生成的无人飞行器拓扑结构有序,而 APF 生成的拓扑结构混乱。当运动时间达到 75 s 时,BCDDPG 生成的无人飞行器拓扑结构仍然保持有序,而 APF 生成的无人飞行器拓扑结构没有改善。当运动时间为 90 秒时,BCDDPG 生成的无人飞行器拓扑结构略显混乱,无人飞行器之间的距离变短,但无人飞行器之间没有发生碰撞。但此时 APF 生成的无人机拓扑结构变得非常混乱,UAV1 和 UAV2 发生碰撞。当运动时间达到 120 秒时,由 BCDDPG 驱动的无人机几乎全部到达目标。相反,APF 驱动的无人机没有一个到达目标,UAV3 和 UAV4 已经远远落后于队伍。上述结果表明,BCDDPG 算法比 APF 算法具有更高的泛化能力。它可以应用于新的环境,而无需对参数进行微调。
图8 在N = 6、9和12时,DDPG和BCDDPG的收敛性比较
为了验证模型的有效性,首先对 DDPG 和 BCDDPG 进行了收敛性比较,上图显示了平均奖励与模拟步数的关系曲线。除了网络结构不同外,DDPG 和 BCDDPG 使用了相同的模拟参数。如图 5 所示,分别在 N = 6、N = 9 和 N = 12 的不同无人机数量下训练 DDPG 和 BCDDPG。随着无人机数量的增加,环境复杂度也随之增加。结果表明,无论 UAV 数量多少,BCDDPG 都能达到较好的收敛性能,而当 UAV 数量增加到 12 个时,DDPG 就无法收敛了。更具体地说,随着无人机数量的增加,BCDDPG 和 DDPG 的性能差距越来越大。当环境相对简单(N = 6)时,BCDDPG 和 DDPG 都能很好地处理无人机之间的合作,并驱动多无人机系统以羊群方式向目标移动。然而,当环境变得复杂时(N = 12),DDPG 无法处理不同奖励之间的矛盾,即接近目标、避免碰撞和保持连接。最后,导致 DDPG 无法收敛。
05
总结
文章从系统模型的角度介绍了多无人机集群运动问题,提出了基于DT和DRL的训练框架,给出了问题陈述,并探讨了RL方法和问题的状态和动作空间的表示。介绍了利用深度强化学习(DRL)和数字孪生(DT)技术实现多无人机(UAV)系统的集群运动的方法。在这个框架下,受动物集群行为的启发,文章提出了一种名为行为耦合深确定性策略梯度(BCDDPG)的演员-评论家DRL算法。
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇