引用
刘双成 , 李思民 , 李海南 , 等. 面向无人机群多智能体强化学习的对抗仿真平台与攻防验证[J]. 网络空间安全科学学报, 2023, 1(2): 93-111
LIU S C , LI S M , LI H N ,et al. Simulation Platform and Attack and Defense Verification for Adversarial Multi-Agent Reinforcement Learning in UAV Swarms[J]. Journal of Cybersecurity, 2023, 1(2): 93-111
背 景
随着深度学习的函数拟合能力不断增强,研究人员将深度学习引入到强化学习中,多智能体强化学习研究的核心是如何使一组智能体在协作中学习并实施有效的策略。通过考虑智能体之间的相互作用,使得智能体具备更通用的策略和处理不同任务的能力,当前在包括无人机群等一系列复杂的决策任务[1][2][3][4][5]上应用广泛。强化学习的本质是解决智能体在与环境交互过程中学习某种策略以最大化奖励或实现特定目标的问题。在无人机群控制领域,强化学习相对于监督学习具有以下优势:(1) 自主性。(2)适应性。(3)协作性。然而,使用多智能体强化学习训练得到的无人机群模型在部署时会面临环境的动态变化、输入的不确定性、甚至是恶意攻击,表现出模型不鲁棒[6][7][8]的问题。因此,我们需要对基于强化学习训练得到的无人机群模型进行攻防验证,以探究无人机群模型可能暴露的脆弱性问题。
首 先
本文首先基于AirSim仿真环境,设计了一个无人机群对抗环境,采用基于规则的方法,将基于集中式训练-分布式执行(CTDE)框架的多智能体强化学习算法MAPPO(多智能体近端策略优化算法)适配到无人机群中,研究得到智能的无人机群模型,对无人机群在并深入探讨了其在个体和集体层面的行为模式。
图1 无人机群的训练策略示意图
过 程
基于上述研究成果,本文提出面向无人机群的攻击框架,包含五种无人机群鲁棒性测试方法:基于策略的攻击(受害者无人机群中引入“内鬼”作为被攻击对象,通过其异常动作干扰其他受害者无人机的正常行为)[9][10][11][12]、基于观测的攻击(通过扰动无人机群的观测空间使得无人机群做出错误的动作,从而对最终的奖励产生负面影响)[13][14][15]、基于奖励函数的攻击(旨在干扰无人机群的内部信息,从而扰动无人机群的行为)[16][17]、基于少数群体的攻击(旨在针对性地强化攻击者无人机群中的少数无人机,从而小幅度地降低被攻击的受害者无人机群的行为智能程度)、基于多数群体的攻击(旨在针对性地强化攻击者无人机群中的多数无人机,从而大幅度地降低被攻击的受害者无人机群的行为智能程度),较为全面地覆盖了无人机群所面临的威胁。
图 2 无人机群对抗攻击算法的代码结构
实验验证
本文基于AirSim进行无人机群的仿真验证,使用TCP/IP中的msgpack-rpc协议完成Python程序与AirSim的通信。每次运行时指定一个端口号,AirSim在仿真过程中会一直监听该端口的请求,Python程序可以通过msgpack序列化格式向该端口发送RPC数据包,与AirSim进行交互控制。如此,AirSim和Python程序可以相互隔离,互不干扰。此外,进行相应的端口号配置可以实现多机器仿真,一台机器运行Python程序,另外一台或多台机器运行AirSim。
图 3 Airsim和Python的通信
本文的无人机群对抗环境支持强化学习VS规则和强化学习VS强化学习两种方式。具体而言,环境提供的接口既可以输入单方无人机群的动作,输出该方无人机群的观测、状态和奖励,又可以同时输入双方无人机群的动作,输出双方无人机群的观测、状态和奖励。
图 4 无人机群对抗平台的代码结构
总结展望
本文通过集成无人机群对抗环境、训练算法和攻击算法构建无人机群对抗平台并基于该平台进行实验,并结合实验的可视化结果,分析了遭受五种攻击算法时无人机群模型的异常行为,证实了无人机群模型可能暴露的脆弱性问题,为提高无人机群模型鲁棒性的研究奠定了基础。
论文全文下载方式
1 识别下方二维码;2 点击文末“阅读原文”。
来源:《网络空间安全科学学报》第二期
电话:010-89061756/ 89061778