久航仿真信息分析 中科院工程热物理所供图
依靠取之不竭的太阳能,太阳能无人机具备超长航时的特点,可在临近空间航行数周或更长时间,完成通信中继、环境监测等任务,极具发展潜力。近日,中科院工程热物理研究所无人飞行器实验室在《中国航空学报(英文版)》(Chinese Journal of Aeronautics)发表论文,将深度强化学习技术引入太阳能无人机轨迹研究,可更“智能”地规划飞行轨迹和路径,从而节省能源,使得无人机在空中工作更长时间。
仿真试验显示,在执行固定任务并经过一整夜飞行后,采用强化学习控制器的太阳能无人机剩余电量相比初始状态提升22%,相比于采用最小功率定常盘旋和预设三维状态机策略的情况,剩余能量分别提高31%和17%。而在久航仿真试验中,采用强化学习控制器的飞行续航时间相比以上两者提高超过一倍,达到59天。同时,控制器也可以根据当前飞行和辐照信息重新预测未来的飞行轨迹,平均单步推理仅用时1毫秒的时间,将重规划用时由传统方法的分钟级提速至秒级,使自主飞行能力得到了进一步的提升。
临近空间距离地面20~100公里,它虽然空间上十分遥远,但在科学、经济等领域都具有研究价值。目前世界各国都在加强对临近空间的探测和认知,抢占临近空间战略制高点,构建新兴的高技术平台。相比同样用于临近空间的气球与软式气艇而言,太阳能无人机可控性更强,覆盖范围更广,重复利用率更高,但所处严苛的高空环境也对无人机的飞行能力提出更高要求。
为了搭载更多有效载荷,太阳能无人机平台的尺寸正在不断增大,这对总体设计方法提出了严峻挑战。在现有电池效率的限制下,如何增加太阳能无人机的飞行航时?对此,无人飞行器实验室主任张子健研究员表示:“第一点是保持无人机性能的稳定,使其飞得更好、更稳;第二点是能延长续航时间,最大程度利用能量;第三点是在一定的约束下,提高任务覆盖能力。”
为了实现这三大目标,研究人员尝试了许多方法。如离线优化算法帮助无人机充分利用可获取的能量,但无法实时纠正飞行过程中的不确定性,也不能及时调整飞行状态;而一些在线算法会因为有限的算力导致计算效率下降。
最终,研究团队成员倪文俊、吴迪、毕莹首次引入深度强化学习技术,借助神经网络优化飞行轨迹,提升太阳能无人机自主控制智能规划的能力。
深度强化学习更接近人类的学习习惯,是将深度神经网络的信息感知、提取能力,和优化长期目标的决策能力相结合的一种人工智能学习方式。论文第一作者、中科院工程热物理研究所博士生倪文俊告诉《中国科学报》,轨迹规划是高空太阳能无人机研究领域重要的一环,基于能量的轨迹规划,就是关注无人机在飞行过程中以怎样的姿态才能更有效地提高能量利用率,完成任务执行。
据悉,研究团队利用强化学习算法,借助神经网络接收更多异质信息,诸如位置、速度、能量、太阳状态等,组成高维信息空间,将动态轨迹生成转化为端到端的控制,设计并建立完整的高空长航时太阳能飞机数值仿真环境以及强化学习框架。这样,无人机的计算效率和实际匹配效能提升了,通过与环境交互,还能自主适应轨迹生成,达到效能利用的最大化。
倪文俊表示,这是太阳能无人机领域首次引入深度强化学习概念,团队在探索道路上也曾遇到重重阻碍。由于存在大量学科交叉,深度强化学习与太阳能无人机涉及航空总体设计、人工智能、飞行控制等领域,需要查阅大量文献,学习相关知识。其次,为验证创新方法的可行性,团队不断优化框架摸索实践,并进行大量仿真实验,对无人机性能、算法规律、具体操作设定、细节等方面都要有深入的考量与求证。