弱模型依赖通用智能姿态控制技术

来源:优秀文章 发布时间:2023-01-18 点击:

邵会兵,詹韬,付京博

弱模型依赖通用智能姿态控制技术

邵会兵,詹韬,付京博

(北京控制与电子技术研究所,北京 100038)

超高速跨域飞行、敏捷机动等是新一代飞行器发展方向,而长时高速飞行产生的气动外形变化带来的气动参数大范围改变等问题,都对控制系统设计提出了更高的要求。为提高飞行器对模型不确定性的适应能力及控制方法对不同外形、复合执行机构的通用性,深入研究了弱模型依赖的通用智能姿态控制技术,分层次地开展了基于深度学习(DL)的自适应姿态控制、基于深度确定性策略梯度算法(DDPG)的通用姿态控制、弱模型依赖的多维复合控制等技术研究,显著提高了控制系统的鲁棒性和通用性,对人工智能技术在飞行器姿态控制中的应用具有一定的指导意义。

弱模型依赖;
自适应智能控制;
多维复合控制;
深度强化学习(DRL);
扩张状态观测器

随着飞行器的高速发展,其飞行环境及任务也日渐复杂。飞行器在大气层内高速机动飞行时,其速度范围变化大、高度范围覆盖广,因此气动参数也随之大范围快速变化,同时,长时间高速机动飞行导致的气动外形变化,进一步加剧了气动参数的不确定性,这些都要求控制系统具有更强的适应能力。

另一方面,飞行器气动外形从过去单一的轴对称外形已逐步发展到轴对称、面对称气动外形共存的局面。为获得更强的机动能力,针对敏捷机动飞行器的研究也正在如火如荼地进行,这都对姿态控制系统提出了巨大的挑战。

此外,随着飞行器设计的不断进步,其执行机构也日趋多样。多种类执行器为飞行器跨域飞行提供了更强大的控制能力,但也对姿态控制系统提出了多维复合控制要求。

在环境复杂、气动参数大范围不确定性变化的条件下,传统控制器难以实现高精度姿态控制。为解决上述问题,许多学者使用先进控制理论来进行飞行器的姿态控制设计。文献[1-3]使用非奇异终端滑模控制方法来实现环境及模型强不确定性下的飞行器姿态控制,但滑模变结构控制仍然依赖高精度的飞行器模型。文献[4-5]使用自适应动态反演控制方法来实现飞行器的姿态控制,但反演控制方法的补偿精度完全依赖气动数据准确性,当参数大范围不确定变化时,补偿效果通常会下降。文献[6]使用L1自适应控制来应对飞行器姿态控制中面临的诸多不确定性。姿态控制系统采用复合控制能够提升控制能力,增强对外界干扰的适应能力[7]。针对姿态控制系统多维复合控制的需求,现有分配方法通常通过解耦分解[8]、构建分配函数[9]、最小二乘[10]、线性规划等优化方法进行控制分配。文献[11]使用基于二次规划的按需动态分配方法,实现了飞行器的气动舵面及反作用控制系统的复合控制。这些基于先进控制理论的控制方法均依赖于对被控对象的高精度建模,难以应对现代高速飞行器的姿态控制需要。

若要从根本上解决现有姿态控制方法与现实需求之间的矛盾,必须降低控制方法对模型的依赖程度,以提高对模型不确定性的适应性,增强对不同气动外形的通用性。文献[12]使用弱模型依赖方法实现了高性能船舶稳定控制,但其将未建模部分视为误差,通过观测器进行干扰补偿的方法弥补,难以实现复杂未建模动态下的稳定控制。文献[13-14]使用深度强化学习(Deep Reinforcement Learning,DRL)实现不依赖模型的控制算法,但其直接基于深度神经网络输出控制量,缺乏鲁棒性分析,难以用于工程实践和满足通用化设计需求。本文在深入研究了弱模型依赖姿态控制技术的基础上,遵循控制系统发展规律,提出了“基于深度学习(Deep Learning,DL)的自适应姿态控制、基于深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的通用姿态控制、弱模型依赖的多维复合控制技术”3个智能程度逐层递进的姿态控制方案,力图为飞行器姿态控制从传统方法逐步走向智能化方法提供一定借鉴。

本文围绕高速飞行器在环境及模型高不确定性变化下的弱模型依赖通用智能姿态控制技术开展研究,第1章提出了基于DL的自适应姿态控制设计,基于DL实现对气动数据变化的预估及前馈补偿;
第2章深入研究基于DDPG的通用姿态控制技术,基于DRL实现了传统控制器面向高不确定性环境及模型的进化;
第3章研究弱模型依赖的多维复合控制技术,实现针对多维执行机构的复合姿态控制;
第4章得出结论,给出分析。

有关基于DL的自适应姿态控制技术的详细内容参见文献[15]。该方法基于小扰动线性化思想,采用“反馈线性化+自适应PID”控制算法框架,算法结构如图1所示。

该方法将气动数据作为训练样本,采用DL技术离线训练获得反馈线性化神经网络和气动偏导数神经网络。并在线根据网络输出自适应调整控制规律,使得控制律仅与飞行状态相关,实现控制律与飞行轨迹的解耦,可满足宽飞行包线、宽飞行空域、宽飞行高度的多样化飞行轨迹控制需求。然而反馈线性化算法补偿精度完全依赖气动数据准确性,一旦由于外形变化等因素导致气动数据天地不一致,补偿效果明显变差,直接导致控制品质下降,甚至失稳。

经飞行器仿真测试[15],采用上述方法对气动偏差的适应能力约为30%。

2.1 算法思想

基于DL的自适应姿态控制方法实现了控制律与飞行轨迹的解耦,但神经网络是根据气动数据离线训练获得,不同外形飞行器难以通用,且气动偏差的鲁棒性难以提升;
此外,该方法设计仍需设计师对控制器带宽等参数进行精细化设计,对模型和任务的依赖程度仍较高。

为进一步降低控制算法对模型的依赖程度,一方面考虑取消反馈线性化网络,而将控制对象模型的所有非线性部分和外扰均看作系统的“未知扰动”,并采用扩张状态观测器进行观测并实时补偿;
另一方面,为解决控制器带宽和观测器带宽自适应最优调节问题,提出采用强化学习离线训练得到控制器和观测器带宽自主调节神经网络,并在线应用该网络实时计算获得最佳带宽,实现期望的最佳控制性能。算法的控制系统框图如图2所示。

2.2 基于DDPG的通用姿态控制方法

基于DDPG的通用姿态控制算法将智能控制与传统控制进行有机结合,在自抗扰控制器的基础上保留“干扰观测-补偿”框架,增加DRL算法,实现控制器带宽和ESO带宽在线实时调度,进一步提高控制器的性能。自抗扰控制方法是韩京清先生于20世纪80年代末期创建的一种估计补偿不确定因素的控制技术[16],其将作用于被控对象的所有不确定因素(建模误差和外加干扰)都归结为“总的未知扰动”,并利用控制对象的输入输出数据对它进行估计并给予补偿。

自抗扰控制方法主要由以下3个部分组成:

2)反馈控制律。根据系统的控制误差确定反馈控制量。

3)扩张状态观测器。根据控制对象的输入输出信号对扩张状态(总扰动)进行估计。

将以上跟踪微分器、反馈控制律、扩张状态观测器组合在一起,构成自抗扰控制器,如图3所示。

2.2.1跟踪微分器设计

跟踪微分器用于对姿态角指令安排过渡过程,目的是在考虑控制系统实际跟踪能力前提下,合理安排过渡过程以实现跟踪能力范围内的无超调最速跟踪。

通过文献[16]提出一种最速跟踪微分器,其有很好的噪声抑制能力,离散后的形式为

2.2.2非线性反馈控制律设计

采用误差和误差微分的适当非线性组合设计反馈控制率,形式如下:

2.2.3扩张状态观测器设计

对于自抗扰控制器来说,最核心是扩张状态观测器,通过建立扩张状态观测量的观测方程,使系统具有扰动估计和补偿的能力[17]。

以飞行器俯仰通道为例,姿态运动动力学方程为

扩张状态观测器方程为

2.2.4DDPG算法的设计与训练

DDPG是在深度Q学习方法基础上,采用了执行器-评价器(Actor-Critic)架构的DRL。其在训练中根据异策略(Off-Policy)数据及贝尔曼方程学习价值函数,并同时使用价值函数来作为学习策略[18-19]。策略即为执行器-评价器架构中的执行器,根据环境反馈的状态,输出系统的连续动作;
价值函数即为执行器-评价器架构中的评价器,根据状态及动作,输出策略由状态的期望回报。训练过程即为迭代拟合价值函数及最大化价值函数的策略,直到收敛。

DDPG算法的目标即为最大化策略在当前状态下,未来折扣累积奖励的期望,即:

价值网络的损失函数:

式(11)中目标函数表示为

根据上述建立的马尔科夫决策过程,利用DDPG方法进行地面离线仿真训练,其训练算法框架如图4所示。

本文针对固定速度1 200 m/s及飞行高度45 km的高速飞行器姿态控制任务进行训练,训练阶段姿态角指令为一固定幅值的阶跃信号。训练获得了比较理想的控制效果,其各回合累积回报的变化曲线如图5所示。

最后一个回合中姿态角偏差及姿态角速度的变化情况如图6所示。从图6中可知,Agent学习到了有效的控制参数调节规律,飞行器可以快速跟踪姿态角指令,且精度较高。可见,取消了前馈补偿模块,并没有影响姿态控制的性能,表明本文所提出的“基于DDPG的通用姿态控制方法”是有效可行的。

2.3 基于DDPG的通用姿态控制算法验证

应用Agent学习到的控制参数调节律网络进行气动参数大范围拉偏条件下仿真验证。连续进行 5次调姿,姿态角指令除阶跃信号外还包含正弦信号,气动参数拉偏50%,速度取850 m/s(训练阶段并未针对该速度进行训练)。在这种条件下,相应的姿态角跟踪曲线如图7所示。

可见该方法设计过程简单,对气动参数和总体结构参数变化适应能力强,算法通用性强,在不同速度下能够适应多种形式的指令,且控制性能保持良好,即使在气动系数大范围拉偏的情况下,仍能够实现姿态的高精度稳定跟踪,可以认为该方法实现了姿态控制系统通用化设计。

3.1 算法思想

上述姿态控制算法将多约束、强不确定性的姿态跟踪问题转化为自适应动态规划问题,并引入DRL算法离线迭代优化,建立了较为通用的算法设计流程,显著提升对气动参数大范围偏差的适应能力,但仍存在如下问题:

1)当前高速飞行器具有推力矢量、直接力以及空气舵等多维异类执行机构,该算法针对特定单一执行机构设计,难以适应上述执行机构的独立/复合控制[20];

2)动力系数在线辨识与干扰观测分离设计,降低对象特征感知效率和精度,极端情况下可能影响闭环系统稳定性;

3)可适应的气动参数变化范围有限,难以适应未来飞行器敏捷机动控制需求。

针对上述问题,本文提出“弱模型依赖的多维复合控制技术”。首先,考虑连续、离散姿态控制的统一,构建面向通用控制的动力学特征模型;
其次,在此基础上采用“平行估计器+鲁棒自适应控制器+参数调度律+智能分配律”的算法框架,并将估计器、控制器及分配律的设计参数选取抽象为优化问题,引入强化学习算法解决,实现了多维异类复合控制;
最后,降低控制算法对精确模型的依赖,发挥扰动条件下的最优性能,同时控制动态分配也能够实现执行机构典型非致命故障的容错控制。算法原理框图如图8所示。

3.2 面向通用控制的动力学特征模型

3.2.1通用全局特征模型

传统面向控制模型常采用平衡点附近线性化的小扰动模型,相较于飞行器本质的动力学模型,经过了轨迹域、姿态域、时间域多个维度的约束和简化,无法满足新一代高速飞行器宽域、大机动敏捷操纵等需求。为解决上述矛盾,构建飞行器通用全局特征模型为

3.2.2多维异类控制量映射

高速飞行器的多维异类控制分配问题可描述为

由此建立了多维异类控制量映射模型,为后续智能分配律设计奠定基础,原理框图如图9所示。

3.3 通用姿态控制器设计

3.3.1通用姿态控制框架

考虑到根据标称预示模型设计的控制器通用性差,宽域机动和敏捷机动飞行时性能较差,本文采用“平行估计器+鲁棒自适应控制器+参数调度律+智能分配律”算法框架。

1)平行估计器:根据动力学输入和输出数据对模型中的未知参数和干扰进行一体化估计,并根据估计结果构建导弹姿态动力学平行系统。

2)鲁棒自适应控制器:采用快-慢双通道滑模控制器构建基本控制律,结合模型估计器的估计信息,实现全局鲁棒自适应控制,求得“虚拟控制量”。

3)参数调度律:负责对控制器和模型估计器的自身参数进行智能最优调节,采用评价器-执行器框架,离线训练网络初值,在线增量式学习。

4)控制分配律:根据控制约束、飞行器目前状态及各种执行机构控制效率的分布,采用一定的分配策略,实现对不同执行机构控制输出的分配,以期在高精度实现“虚拟控制量”条件下,使控制消耗最低。

3.3.2鲁棒自适应控制器

基于特征模型,按照被控变量对控制输入量响应快慢的特点进行快慢时标分离,构成快回路和慢回路子系统,并考虑统一连续控制和开关控制需求,分别针对快慢回路设计拟滑模控制律实现全局鲁棒控制,结构如下:

可见,上述控制律为全局非线性形式,同时利用特征参数/干扰一体化在线估计结果,能够应对宽域飞行导致的动力学强不确定性。

3.3.3智能控制分配

由于存在多种操纵机构,且操纵机构的作用力或力矩可能存在冗余,因此如何合理分配虚拟控制量到实际执行机构成为关键,将强化学习思路应用于智能分配律设计,构建控制分配的马尔科夫决策过程,其中奖励函数的设计至关重要。

由此将虚拟控制量的动态分配问题等效为优化问题,采用DRL算法解决。

3.4 基于DRL的多维控制参数自进化

为更好地实现未知外界扰动及复杂动力学特性下飞行控制系统的控制性能,在已有的控制系统结构下通过构建平行系统实现对控制器、估计器以及控制分配参数的在线智能优化。采用执行-评价网络结构(A-C框架),离线训练好网络初值,通过建立效用函数与策略函数描述控制性能指标,根据平行系统跟踪误差、稳定性、控制能力(剩余执行机构控制量、剩余执行机构变化速率、控制效率)等进行综合评价,结合期望最优控制性能动态修正控制参数和估计器参数,并实现智能控制分配。算法原理框图如图10所示。

本文从传统姿态控制律设计方法严重依赖精确控制对象模型问题出发,提出了基于DL的自适应姿态控制、基于DDPG的通用姿态控制、弱模型依赖的多维复合控制3个智能化程度逐层递进的控制方案。该方案可显著提升飞行控制系统对气动偏差、干扰的适应性以及对不同外形飞行器的通用控制能力,实现了控制算法对控制对象模型的弱依赖,对人工智能技术在飞行器姿态控制中的应用提供了一种切实可行的思路。

[1] ZHANG L, WEI C Z, WU R, et al. Fixed-time extended state observer based non-singular fast terminal sliding mode control for a VTVL reusable launch vehicle[J]. Aerospace Science and Technology, 2018, 82:
70-79.

[2] ZHANG R, LU D, SUN C. Adaptive nonsingular terminal sliding mode control design for near space hypersonic vehicles[J]. IEEE/CAA Journal of Automatica Sinica, 2014, 1(2):
155-161.

[3] QIAO J, LI Z, XU J, et al. Composite nonsingular terminal sliding mode attitude controller for spacecraft with actuator dynamics under matched and mismatched disturbances[J]. IEEE Transactions on Industrial Informatics, 2020, 16(2):
1153-1162.

[4] ANSARI U, BAJODAH A H. Launch vehicle ascent flight attitude control using direct adaptive generalized dynamic inversion [J]. Proceeding of the Institution of Mechanical Engineering, Part G:
Journal of Aerospace Engineering, 2019, 233(11):
4141-4153.

[5] 董朝阳,路遥,王青.高超声速飞行器指令滤波反演控制[J].宇航学报,2016,37(8):957-963.

[6] 钟京洋,宋笔锋.基于鲁棒伺服思想的尾坐式飞行器悬停姿态控制[J].控制与决策,2020,35(2):339-348.

[7] 周如好,张卫东,胡存明,等.运载火箭推力矢量/非线性复合控制方法研究[J].上海航天(中英文),2016,33(增刊1):81-85.

[8] YANG C, ZHONG S, LIU X, et al. Adaptive composite suboptimal control for linear singularly perturbed systems with unknown slow dynamics[J]. International Journal of Robust and Nonlinear Control, 2020, 30:2625-2643.

[9] 郭建国,吴林旭,周军.非对称变翼飞行器复合控制系统设计[J].宇航学报,2018,39(1):52-59.

[10] 刘胜,王宇超,傅荟璇.船舶航向保持变论域模糊-最小二乘支持向量机复合控制[J].控制理论与应用,2011,28(4):485-490.

[11] 董哲,刘凯,李旦伟.考虑动态分配控制的空天飞行器再入姿态复合控制设计[J].宇航学报,2021,42(6):749-756.

[12] 刘旌扬.弱模型干扰补偿控制方法及其在高性能船舶姿态稳定控制中的研究应用[D].上海:上海交通大学,2011.

[13] 裴培,何绍溟,王江,等.一种深度强化学习制导控制一体化算法[J].宇航学报,2021,42(10):1293-1304.

[14] 孔维仁,周德云,赵艺阳,等.基于深度强化学习与自学习的多无人机近距空战机动策略生成算法[J].控制理论与应用,2022,39(2):352-362.

[15] 邵会兵,崔乃刚,詹韬.基于神经网络的飞行器控制方法及仿真研究[J].计算机仿真,2018,35(10):94-98.

[16] 韩京清.自抗扰控制技术:估计补偿不确定因素的控制技术[M].北京:国防工业出版社,2008.

[17] 孙明玮,马顺健,朴敏楠.高超声速飞行器自抗扰控制方法[M].北京:科学出版社,2018.

[18] RICHARD S S, ANDREW G. Reinforcement learning:
an introduction[M]. Cambridge, USA:
MIT Press, 2017.

[19] SILVER D, LEVER G, HEESS N, et al. Deterministic policy gradient algorithms[C]//Proceedings of the 31st International Conference on Machine Learning. New York:ACM Press,2014:
387-395.

[20] HE S, LIN D, WANG J. Compound control methodology for a robust missile autopilot design[J]. Journal of Aerospace Engineering, 2015, 28(6):
1-10.

Generalized Intelligent Attitude Control with Weak Model Dependence

SHAOHuibing, ZHANTao, FUJingbo

(Beijing Institute of Control and Electronic Technology, Beijing 100038, China)

Ultra-high speedcross-domain flight and agile maneuvering are the developing trends of next-generation aircrafts. However, the aerodynamic parameters variations caused by the aerodynamic shape change in long-time wide-speed-range hypersonic flight and the aerodynamic variations in deformable aerial-underwater flight pose significant challenges to the aircraft attitude control system. In this paper, a novel generalized intelligent attitude control method with weak model dependence is proposed to tackle the model uncertainty as well as the compound control problem of heterogeneous actuators in deformable aircrafts. The method is an attitude control scheme based on an adaptive control method, a generalized intelligent attitude control method, and a compound control method. The adaptive attitude control method is based on deep learning (DL), and is used to compensate the aerodynamic moment. The generalized intelligent attitude control method is based on the deep deterministic policy gradient (DDPG) algorithm, and is developed for the aerodynamic and model uncertainties. The compound control method is adopted for the heterogeneous actuators with weak model dependence. The proposed method is a practical intelligent control method, and has better robustness as well as universality compared with the existing ones.

weak model dependence;

adaptive intelligent control;

heterogeneous compound control;

deep reinforcement learning (DRL);

extended state observer

2022‑04‑27;

2022‑06‑23

邵会兵(1977—),男,博士,研究员,主要研究方向为导航、制导与控制。

詹韬(1983—),男,硕士,研究员,主要研究方向为导航、制导与控制。

TJ 765.2

A

10.19328/j.cnki.2096⁃8655.2022.04.007

猜你喜欢 姿态控制气动飞行器 中寰气动执行机构天然气与石油(2022年4期)2022-09-21高超声速飞行器凤凰动漫(军事大王)(2022年1期)2022-04-19基于NACA0030的波纹状翼型气动特性探索北京航空航天大学学报(2021年6期)2021-07-20基于支持向量机的飞行器多余物信号识别北京航空航天大学学报(2020年3期)2021-01-14巧思妙想 立车气动防护装置劳动保护(2018年5期)2018-06-05基于STM32的四旋翼飞行器飞行控制板设计无线互联科技(2017年17期)2017-09-18“天箭座”验证机构型的气动特性无人机(2017年10期)2017-07-06基于双处理器的四旋翼飞行控制系统研究软件导刊(2017年1期)2017-03-06基于四元数的四轴无人机姿态的估计和控制现代电子技术(2015年11期)2015-07-28神秘的飞行器小朋友·快乐手工(2015年5期)2015-06-06推荐访问:姿态 模型 依赖
上一篇:无位置传感器电机控制在火炮装填应用的关键技术研究
下一篇:Fretting,wear,behaviour,of,machined,layer,of,nickel-based,superalloy,produced,by,creep-feed,profile,grinding

Copyright @ 2013 - 2018 优秀啊教育网 All Rights Reserved

优秀啊教育网 版权所有