发布日期:2025-02-02 22:20 点击次数:88
摘要:基于兵棋研究的空战编组对抗方法主要使用规则或运筹等手段,存在假设不够合理、建模不准确、应变性差等缺陷。强化学习算法可以根据作战数据自主学习编组对抗策略,以应对复杂的战场情况,但现有强化学习对作战数据要求高,当动作空间过大时,算法收敛慢,且对仿真平台有较高的要求。针对上述问题,提出了一种融合知识数据和强化学习的空战编组对抗智能决策方法,该决策方法的输入是战场融合态势,使用分层决策框架控制算子选择并执行任务,上层包含使用专家知识驱动的动作选择器,下层包含使用专家知识和作战规则细化的避弹动作执行器、侦察动作执行器和使用强化学习算法控制的打击动作执行器。最后基于典型作战场景进行实验,验证了该方法的可行性和实用性,且具有建模准确、训练高效的优点。
空战编组对抗战术是衡量各国空中作战力量的重要指标。相比于单机作战, 空战编组可以共享态势信息, 合理分配对空搜索任务并执行协同作战任务[1]。现代战斗机的传感器和武器更加先进, 空战竞争日趋激烈, 对空战编组对抗战术提出了更高的要求。兵棋推演, 特别是实时策略类兵棋推演, 借助计算机仿真技术, 对现实世界军事问题的模拟水平日益增长, 能够支撑不对称不完全信息下的动态博弈[2], 辅助训练指挥员的宏观战略决策和局部战术决策的作战能力, 是研究空战编组对抗战术的重要工具。
传统的兵棋推演技术主要采用规划和运筹学知识, 夏阳升等提出了一种结合车机载体协同完成多区域覆盖侦察任务的新模式, 使用0-1整数规划建模技术进行建模, 应用于小型无人机在战场区域侦察中[3]。张可等设计了关键点推理遗传模糊系统, 结合遗传算法和模糊系统理论构成智能算法推理得到了陆战兵棋推演的行军安全点[4]。刘满等设计了一款引擎, 通过挖掘兵棋历史推演数据, 提取棋子历史位置概率、 夺控热度、 观察度等评价属性, 利用多属性综合评价软优选算法和兵棋基本规则决策出棋子下步行动[5]。邹烨翰等对作战推演的相关理论基础进行归纳研究[6], 认为在理论上重视兵棋推演中的随机性和复杂性, 运用军事运筹学, 对问题进行求解研究, 能够改善作战模拟系统性能, 如果将其应用到各级决策中去, 就有可能起到倍增作战能力的作用[7]。但上述方法存在假设不够合理、 建模不够准确、 应变性差等缺陷。
棋类智能体阿尔法狗战胜围棋世界冠军李世石事件[9], 展现了强化学习技术在智能决策领域的优势, 将强化学习技术运用于兵棋推演中是当前军事智能研究的重要方向。CIANCARINI等在军棋中采用蒙特卡洛树搜索的智能体架构, 以较少的领域特定知识获得更好的实验结果[10]。SUN等建立了一个基于先验知识的DQN智能决策模型用于兵棋推演中的坦克动作控制[11]。针对多智能体控制规划问题, TAN提出了离散化策略的方法[12], 即对每一个算子, 都根据它的观测历史学习训练一个决策网络, 但是单个算子常常存在局部观测的状态, 即它只能观测到战场的部分态势环境[13], 导致单个算子只能学习得到基于局部观测的最优动作, 而不能获得对于全局而言最优的动作。为了研究多智能体强化学习问题, FOERSTER等提出了分布决策、 集中训练的学习范式, 并在星际争霸平台取得了较好的成绩[14]。强化学习需要智能体与环境交互并得到大量高质量的数据用于训练智能体, 但是对于空战编组对抗任务而言, 动作空间和状态空间随着算子数目的增加而快速增加, 会导致单纯的强化学习训练、 收敛困难, 国内鲜有使用强化学习和知识数据融合控制的空战编组对抗研究。
基于2020年的智能博弈挑战赛兵棋推演平台, 本文针对兵棋推演中空战编组对抗这一核心问题, 提出了一种融合知识数据和强化学习的空战编组对抗智能决策方法, 从构建决策方法使用的分层决策框架开始研究, 确定分层框架输入的静态数据和动态数据的融合方式, 设计该决策方法的核心分层决策框架执行和训练架构。构建了典型空战对抗环境, 设计了强化学习算法的状态空间和动作空间, 通过设计推进函数推进该智能决策方法不断与环境交互获得样本数据, 用积累的样本数据进行训练。
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。