一、一类多阶段决策过程方程迭代算法的收敛速度(论文文献综述)
王红[1](2021)在《基于强化学习的几类多智能体系统协同优化控制算法研究》文中指出多智能体系统协同优化控制,主要是指系统中所有智能体在依靠分布式协作以完成某项全局控制任务的过程中,每个智能体还需要优化一个被建模为性能函数的预定目标。在多智能体系统协同控制的研究中,往往存在着系统模型的不精确或者简化的问题。研究发现,强化学习方法可应用于设计系统的优化控制算法,这些算法只需要知道系统部分模型或者完全不知道系统模型。因此,基于强化学习的多智能体系统协同优化控制算法研究引起了学者们的研究兴趣。多智能体系统的一致性,即系统中所有智能体的状态或者输出达成一致,能够很好的描述多智能体系统的协同行为。本文主要研究基于强化学习的多智能体系统协同优化控制算法,使得系统中所有智能体的状态或者输出最终能达到—致。在这个框架下,本文基于已有强化学习在相关问题中的研究工作,对一致性问题和输出调节问题做了进一步的研究,尝试设计基于强化学习的协同优化控制算法,在只需要知道部分系统模型或者完全不知道系统模型的情况下能为每个智能体设计一个分布式控制策略。研究内容具体分为以下三部分:1.针对一类线性连续时间领导者-跟随者多智能体系统,研究基于强化学习的无模型算法,解决系统的全局协同最优一致性问题。全局协同指系统中所有跟随者优化同一个集中式性能函数。基于强化学习方法,得到了系统的无模型Bellman方程,再结合神经网络技术,提出了一种基于神经网络的无模型off-policy强化学习算法,严格的数学分析证明该算法在一定的条件下以次优的方式解决了该问题。最后,仿真结果验证了该算法的有效性。2.针对一类非线性连续时间无领导者多智能体系统,基于强化学习和神经网络技术,同样提出了一种基于神经网络的无模型off-policy强化学习算法,以次优的方式解决了该系统的全局协同最优一致性问题。最后,两个仿真结果验证了该算法的有效性。3.针对一类线性离散时间领导者-跟随者多智能体系统,研究基于强化学习的算法,解决系统的协同最优输出调节问题。在该问题中,每个跟随者需要渐进追踪相同的信号。为每个跟随者设计了一个自适应分布式观测器,用以估计领导者的相关信息,然后为每个跟随者设计了 一个次优分布式反馈控制器。提出了一种基于强化学习的算法,该算法只需要知道部分系统模型就可以求出控制器的最优增益。最后,仿真结果验证了该算法的有效性。
许易经[2](2021)在《电力系统状态检修决策的多阶段随机优化理论研究》文中研究说明在状态检修背景下,从系统运行角度统筹决策各个设备的状态检修时机,进行电力系统状态检修决策(本文的电力系统指具有电力背景的系统,如发电系统,输电系统,发输电系统,配电系统等),可以从系统决策层面利用实际设备状态信息,最大程度地挖掘设备状态监测和评估技术在决策应用层面的潜力,对于提升电力系统的设备资产管理及运行可靠性水平具有重要的理论和现实意义。目前的电力系统状态检修决策模型利用研究周期开始时的实际状态信息和研究周期内的预测的设备状态变化过程,优化决策得到固定的检修计划,缺乏对研究周期内潜在的新增状态信息的应对策略。这类研究在离线监测背景下是合理的,因为使用离线监测在研究周期内能获得的状态信息有限,自然无法在决策时做出完备的检修策略。然而设备状态监测技术正迅速向在线监测发展,设备状态在线监测和评估技术可以实时感知设备状态,其在决策应用层面的影响是在研究周期内可获得的新增状态信息量会急剧增加,这为制定完备的检修策略提供了基础。从随机优化理论的角度看,目前的电力系统状态检修决策理论属于两阶段随机优化,其第一阶段的检修决策需要在研究周期内的设备状态实现之前做出,若要制定一个可以自适应于研究周期内设备状态的逐渐实现过程的系统级检修策略,需要在多阶段随机优化理论框架下重新审视电力系统状态检修决策问题。对此,本文针对电力系统状态检修决策的多阶段随机优化问题展开深入的理论研究。目的是在完备的设备状态在线监测和评估技术背景下,将多阶段随机优化理论应用到电力系统状态检修决策中,制定可以自适应于研究周期内设备状态的逐渐实现过程的系统级检修策略。这样可以充分利用在线监测信息,将决策与设备状态变化过程紧密关联,使检修决策更加精准有效,进一步提升电力系统的设备资产管理及运行可靠性水平。本文研究内容如下:(1)对电力系统状态检修决策的多阶段随机优化问题进行概述。首先介绍多阶段随机优化的基本理论;然后针对电力系统状态检修决策,讨论其多阶段随机优化问题,具体包含以下问题:1)建立两类决策问题,包括检修决策问题和运行调度决策问题;2)建立多阶段决策过程;3)建立多阶段随机优化模型;4)考虑滚动决策的实际情况,依据滚动决策周期是否小于研究周期分为两种情况,分别讨论其决策执行情况和多阶段随机优化的优势。后文以此为基础进行具体的建模和求解工作。(2)提出了一种考虑N-K安全约束的两阶段鲁棒-随机优化模型。该模型以研究周期内的设备预防性检修成本和期望故障后检修成本之和最小为目标,优化决策设备的检修计划,同时在各个时段内满足系统运行的N-K安全约束。考虑N-K安全约束需要在随机优化模型中列举出大量的预想事故,导致模型规模过大难以求解,所以采用两阶段鲁棒优化框架来重构问题:第一阶段决策检修计划;第二阶段在第一阶段给出的检修计划下,决策最严重预想事故下的系统运行调度方案。由于在此框架的第一阶段中仍然存在设备检修决策的随机优化问题,所以自然形成了一个内嵌随机优化问题的两阶段鲁棒优化模型,称为两阶段鲁棒-随机优化模型。此模型采用C&CG(Column and Constraint Generation)算法进行求解,为了加速收敛,提出一种针对此模型的增强型C&CG,基本思路是在每次迭代过程中添加额外的基于迭代解子集的最严重预想事故场景。最后通过两个算例说明所提出方法的有效性。(3)提出了一种基于检修门槛决策规则的多阶段随机优化模型。为防止设备在检修计划前故障导致计划失效的情况,在已有两阶段随机优化模型中引入检修门槛的概念,此检修门槛与检修计划共同构成决策规则,表现为从设备状态变化过程到检修决策的映射。在此决策规则下可以使检修决策自适应于研究周期内设备状态的逐渐实现过程,实现了多阶段随机优化的概念。决策规则具体为一旦设备状态在检修计划前达到检修门槛,则将原计划提前执行以防止发生故障。在此基础上,给出随预定检修计划和检修门槛变动的期望设备故障后检修成本和期望系统中断运行成本的数学表达,并以研究周期内二者之和最小为目标,计及相关检修和运行调度约束,优化决策检修门槛和预定检修计划,以此建立基于检修门槛决策规则的多阶段随机优化模型,并用遗传算法对模型进行求解。最后通过两个算例来验证所提出方法的有效性。(4)提出了一种自适应多阶段随机优化模型。目的是给出一种不受任何决策规则限制的自适应于研究周期内设备状态的逐渐实现过程的系统级检修策略。首先基于多阶段决策过程建立了完整的自适应多阶段随机优化模型,该模型需要针对场景树中的每一个节点给出决策,而节点数会随阶段数的增长呈指数增长,这导致模型规模过大,难以计算。进一步从马尔可夫决策过程的角度重构问题,检查每个阶段决策后可能出现的独立状态,可以发现独立状态的数目不会随阶段数的增长而无限制的增长,这样可以转而针对马尔可夫决策过程的独立状态做决策,避免了场景树规模过大的问题。然而在求解马尔可夫决策过程的每个阶段的递归方程时会遇到维数灾问题,进一步引入近似动态规划的概念,其用采样学习的方法代替完整反向归纳的方法,避免了维数灾问题,具体步骤包括:1)用决策后状态重构动态规划,将原来每个阶段需要求解的随机优化问题替换为确定优化问题;2)用正向动态规划方法避免了状态空间的维数灾;3)用抽样状态空间代替真实状态空间,避免了随机生成状态空间的维数灾;4)用近似值函数方法避免了动作空间的维数灾。最后通过三个算例说明了所提出方法的有效性。
黄宇澄[3](2021)在《重载列车在长大下坡区段的运行曲线优化方法研究》文中提出重载铁路具有运量大,运输效率高的特点,因此在大宗货物的运输中发挥着重要作用。随着货运量的增加,我国单列重载列车的运载量已经从一万吨增加到了两万吨,复杂运行环境条件下带有传统空气制动的长编组重载列车驾驶控制迎来了新的挑战,为进一步减少司机的劳动强度,提升重载铁路的运输能力,研究重载列车的自动驾驶控制问题就显得尤为重要。我国重载铁路及列车运行的以下几个特点使得实现重载列车的自动驾驶十分困难。首先,重载列车编组多样、车身长,且列车使用同步操控,制动采用传统的空气制动与电制动结合的方式。其次,由于海拔落差大,我国重载铁路具有长大下坡道集中的特点,在长大下坡区段,即使列车采取最大电制动,列车也将缓慢加速运行。为提高运行效率、同时降低维护成本,重载列车通常采用循环制动方式,面向分相区、弯道等复杂条件,给驾驶策略的计算带来了挑战。论文以朔黄铁路为研究背景,结合重载列车在长大下坡区段的运行特点及对应的约束条件,分别选择基于模型驱动(人工蜂群算法、混合整数线性规划方法)和基于数据驱动(近似动态规划算法)的方法研究重载列车在长大下坡区间的驾驶曲线优化问题。并通过仿真结果对不同算法的优化效果进行比较和分析。本文的研究工作主要有以下几个方面:(1)分析重载列车的运行特点,考虑了重载列车的充风时间和工况转换等约束,以减小空气制动时长和提高列车运行效率为目标,构建了重载列车在长大下坡区段运行的优化控制模型。(2)本文将既有的优化控制模型,转化为求解列车的工况转换点问题,基于启发式算法中的人工蜂群算法,设计了一种求解工况转换点的方法。在传统人工蜂群算法的基础上,本文提出了一种结合线路条件的初始解生成方法,缩小了最优解的搜索范围,提高了求解效率。(3)本文基于数值的方法,将非线性问题线性化,使用混合整数线性规划方法进行求解,与启发式算法相比,该方法求得的结果更准确。本文针对该方法进行了仿真验证,同时对混合整数线性规划方法的有效性以及参数对优化效果的影响进行了分析。(4)本文使用基于数据驱动的方法,将优化问题转化为马尔科夫决策过程,结合具体的问题,对智能体(列车)在每个阶段的状态,动作和成本函数进行定义,并对每个阶段的值函数使用基函数进行近似。并使用近似动态规划方法对优化问题进行求解,验证了近似动态规划方法的有效性。
邓云红[4](2020)在《基于自适应动态规划的多智能体一致性控制方法研究》文中指出随着计算技术、通信技术和控制技术的快速发展,多智能体的分布式协同控制在学术界受到了密切的关注。其中一致性控制是多智能体协同控制中一种很常见的控制问题,其目的是为了让处于同一个通信网络中的所有智能体的状态达成一致,完成同一个设定的目标。目前在多智能体协同控制中常见的控制技术有比例积分控制、模糊控制、模型预测控制等,这些方法仅仅考虑了系统的稳定性,无法实现能耗的最小化。自适应动态规划算法在保证系统稳定的基础上,求解了系统的最优控制,性能指标函数相较于传统控制方法有了显着的提升。自适应动态规划算法是自动化领域为了求解最优控制而诞生出的一种多阶段决策方法,该算法利用神经网络来近似非线性复杂系统的数学模型,为许多行业的智能化升级提供了理论支撑。自适应动态规划对于解决多智能体一致性控制这种复杂的非线性问题,具有消耗能量小、控制效果优、计算能力强的优点,优势十分明显。本文通过自适应动态规划规划算法来解决多智能体的一致性控制问题,主要研究工作如下:(1)针对一类输入受限的多智能体系统,提出了基于自适应动态规划算法的一致性控制方案。本文通过在性能指标函数中引入非二次泛函,将饱和多智能体控制问题转化为优化问题。通过性能指标函数可以构造出哈密顿-雅克比-贝尔曼方程,为求解该方程引入了策略迭代算法,并且对迭代算法的稳定性做出了分析,使得算法具有可行性。为了拟合本地性能指标函数,设计了在线神经网络控制器,对相应的哈密顿-雅克比-贝尔曼方程给出表示方法,并采用梯度下降法得到权值的自适应更新律,使得算法能够顺利运行。(2)针对外界干扰下的多智能体系统,设计了最优一致性控制算法。首先在跟随者的动力系统方程中加入了干扰项,随后又在其效用函数中,加入了干扰项的二次型函数。为了求解扰动影响下的一致性最优控制,需要同时考虑控制输入和干扰项的影响,基于非零和微分对策理论,实现纳什均衡。最后在仿真阶段,增加了与理想状态下实验结果的对比,以直观体现出本章算法的实现效果。(3)针对同时具有外界干扰和输入受限问题的多智能体系统,为其设计了分布式一致性最优控制方案。结合输入受限和外界干扰下的多智能体系统最优控制中的各自的性能指标函数,定义了这类系统的性能指标函数。设计李雅普诺夫函数,并求出了系统稳定性条件。最后的仿真实验中,在保证系统稳定的前提下,加入了一个外界扰动,同时考虑控制输入的限制条件,得出了稳定的仿真结果,实验结果验证了算法的有效性。
彭知南[5](2020)在《基于自适应动态规划的分布式控制研究及应用》文中研究指明近几年来,鉴于社会对复杂系统经济调度、资源分配、网络布局等优化问题的迫切需求,分布式最优控制已经成为控制科学领域中的一个研究热点。分布式最优控制问题需要对Hamilton-Jacobi-Bellman(HJB)方程进行求解,由此带来“维数灾难”问题。自适应动态规划(Adaptive Dynamic Programming,ADP)融合了动态规划、增强学习、神经网络、自适应控制、最优控制等理论和方法,是解决“维数灾难”问题的有效方法之一。因此,本文利用ADP方法研究多智能体系统的跟踪控制问题、包含控制问题、反同步控制问题以及下肢助行外骨骼机器人的人机协同控制问题。针对这些控制问题,我们提出了模型未知情况下的分布式控制器设计方法,并且对传统的ADP算法和神经网络结构进行了有效改进,提高了多智能体系统的分布式控制性能。本文的主要研究结果如下:1.研究了离散时间多智能体系统的最优跟踪控制问题。提出了一种新的ADP算法,即两阶段策略迭代算法来计算迭代控制律和迭代性能指标函数。与经典的策略迭代ADP算法相比,该算法包含一个子迭代过程来计算策略评估过程的迭代性能指标函数。其次,给出了迭代性能指标函数和迭代控制律的收敛性证明以及多智能体闭环系统的稳定性证明。同时,构建了一种执行-评价神经网络来分别逼近迭代控制律和迭代性能指标函数。与传统的多智能体分布式跟踪控制方法相比,该方法可以在系统动力学未知的情况下实现系统的在线学习和控制,并满足一定的优化指标。2.研究了离散时间多智能体系统的最优包含控制问题以及含有系统扰动的连续时间多智能体系统的最优包含控制问题。我们将图论、最优控制理论和ADP相结合来求解最优包含控制问题。首先,引入包含误差和相应的折扣性能指标函数,利用Bellman最优性原理,将传统的包含控制问题转化为最优控制问题。其次,推导出耦合的离散时间HJB方程,提出了值迭代算法对耦合HJB方程间接求解。此外,还给出了该算法的收敛性证明和闭环系统的稳定性分析。针对含有系统扰动的最优包含控制问题,本文首先将原始系统的鲁棒控制问题转化为辅助系统的最优控制问题,提出了一种分布式辅助最优控制器设计。然后,建立了原始控制问题和辅助控制问题的等价关系。最后,利用神经网络近似框架实现了该控制算法的在线求解。3.研究了多智能体系统的最优输出反同步控制问题。在大多数反同步控制问题的研究结果中,控制器的设计往往需要系统状态信息和精确的系统动力学模型,这不利于在实际系统中的应用。为了解决这个问题,我们利用多智能体系统中可测量的系统输入/输出数据来重新构造智能体动力学模型。然后,提出了一种基于输入/输出数据的值迭代算法来计算智能体的最优控制律,并对该算法进行了收敛性分析。在基于数据的控制器实现中,提出了一种增量式的神经网络结构来学习最优控制律。所提出的系统建模和控制设计仅依赖可测的系统输入/输出数据,所提出的网络参数更新规则提高了控制器的学习效率,所提出的分布式控制方法在实际工程中具有潜在应用价值。4.研究了基于ADP的下肢助行外骨骼机器人的人机协同控制问题。下肢外骨骼在截瘫和偏瘫患者的行走辅助应用中获得了广泛的关注。在偏瘫患者的助行控制设计中,外骨骼应具备控制患肢运动的能力,使其自然跟随健壮腿的步态。为了保证控制器适应不同的穿戴者,本文提出了一种基于ADP的人机协同控制策略。在所提出的控制策略中,我们首先将下肢外骨骼控制系统建模为领导者-跟随者多智能体系统,然后,提出了一种基于ADP的在线控制策略,利用策略迭代算法来迭代学习最优控制器,使得下肢外骨骼具有较好的协同控制性能。最后,给出了下肢助行外骨骼协同控制算法的神经网络实现方法。本文提出的控制设计方法克服了传统的外骨骼助行控制方法对精确系统动力学建模的依赖,并且提高了外骨骼机器人对穿戴者的在线自适应性。
邓琪,高建军,葛冬冬,何斯迈,江波,李晓澄,王子卓,杨超林,叶荫宇[6](2020)在《现代优化理论与应用》文中研究指明过去数十年间,现代运筹学,特别是优化理论、方法和应用有了长足的发展.本文就运筹与优化多个领域的一些背景知识、前沿进展和相关技术做了尽可能详尽的概述,涵盖了线性规划、非线性规划、在线优化、机器学习、组合优化、整数优化、机制设计、库存管理和收益管理等领域.本文的主要目标并非百科全书式的综述,而是着重介绍运筹学某些领域的主流方法、研究框架和前沿进展,特别强调了近期一些比较重要和有趣的发现,从而激发科研工作者在这些领域进行新的研究.
任立伟[7](2020)在《基于离散多项式模糊模型的跟踪控制方法研究及应用》文中研究表明非线性系统的稳定性分析和控制器设计问题一直是国内外控制界的研究热点。得益于平方和(Sum of Squares,SOS)方法基于凸优化理论和数值解法的优势,多项式非线性系统的研究成果颇多。Takagi-Sugeno(T-S)模糊模型,通过模糊隶属度函数能够以任意精度逼近实际复杂非线性系统,在非线性系统研究中地位举足轻重。多项式模糊模型作为T-S模糊模型的广义化形式,它集合了T-S模糊模型和多项式的优势,比T-S模糊模型具有更少的模糊规则数,却可以更有效地表示非线性系统。同时,多项式模糊模型相关的大部分研究问题亦可借助SOS工具轻松得到解决。正是由于多项式模糊模型的出现,将模糊逻辑系统的分析及其控制器设计的研究热潮又推向了一个全新阶段。伴随现实动力系统的多样性和复杂性,基于多项式模糊模型的分析和设计将面临新的挑战。本文跳出固有的SOS设计框架,分别基于反馈线性化这一经典的非线性控制方法以及新型的强化学习方法研究离散非线性系统的跟踪控制问题,设计相应地多项式模糊控制器,实现不同跟踪控制目标。本文的研究内容将包含如下方面:为了解决一类离散多项式模糊系统的完全跟踪问题,本文提出一种反馈线性化方法控制律设计方法,使得闭环系统输出实现对给定参考轨迹的完全跟踪。该设计方法为解析的。分析系统在原点处的局部稳定性,可作为一种定性检验离散多项式模糊模型质量的方法。更重要的是,为了分析一个任意给定的离散多项式模糊系统基于反馈线性化方法设计完全跟踪控制器的可行性,建立了一个充分的判定条件。此外,为了分析控制器输出有界性,建立了一个充要判定条件。为了解决一类离散多项式模糊系统的渐近跟踪问题,本文提出了一种部分反馈线性化控制律设计方法,使得闭环系统可以渐近跟踪阶跃参考轨迹,并且该方法能有效克服常值干扰问题。更重要的是,为了建立更宽松的判定条件,用于分析一个任意给定的离散多项式模糊系统基于反馈线性化方法设计跟踪控制器的可行性,利用全块S-procedure方法将一个非凸的矩阵不等式问题转化为一个线性矩阵不等式的凸问题。该判定方法具有广阔的应用空间。为了使所设计的多项式模糊控制器参数调整具备智能性,并且使系统实现最优跟踪性能,本文基于最优控制与最优跟踪控制问题间的联系,以及强化学习中的策略迭代算法展开研究,解决一类离散非线性系统的最优跟踪控制问题。首次将策略迭代学习算法与多项式模糊模型相结合,建立基于多项式模糊模型的执行器-评价器结构,对控制器参数进行学习调整同时实现值函数最小化的性能指标。基于实验室自主研制的二自由度旋翼式飞行模拟器系统展开理论分析和实验验证,该模拟器为研究控制问题提供了一个良好的实验平台。理论分析阶段:基于其物理结构和运动机理使用复数矢量结合拉格朗日方程法建立其动力学模型。此外,利用基于泰勒级数的多项式模糊模型建模方法得到其多项式模糊模型,并对其进行了模型验证,并与传统T-S模糊模型作了比较。实验验证阶段:通过系统实测输入输出数据进行参数拟合得到了实际系统模型参数,在此基础上,基于第四章提出的最优跟踪控制方法设计多项式模糊跟踪控制律,通过实验验证了二自由度旋翼式飞行模拟器俯仰角在该控制器作用下对不同期望轨迹的跟踪能力,并且通过干扰实验验证了控制器具有一定程度的抗干扰能力,所得实验结果证明了所设计多项式模糊控制器的正确性和有效性。
廖凯举[8](2020)在《基于迭代神经动态规划的优化控制研究》文中研究指明最优控制问题是现代控制理论研究的热点之一,主要目标是选取一个容许的控制律,对被控对象的动态特征进行控制,实现性能指标的最优化。自适应动态规划能够通过函数近似结构逼近系统的代价函数和控制律,很好的规避了一般动态规划方法的“维数灾”问题,是目前有效解决复杂非线性系统最优控制问题的最有效方法之一。因此,将自适应动态规划和最优控制理论相结合具有重要意义,能够解决系统控制中存在的多种问题,从而大大提高控制性能。首先,考虑了一般离散时间非线性系统的控制约束问题。为了克服输入受限问题,将效用函数设计为非二次型形式。利用神经网络函数近似系统的代价函数及其偏导数,并通过迭代更新神经网络参数获取近似最优控制律。仿真对比了考虑控制约束和不考虑控制约束的迭代算法的控制性能表现,验证了所提方法的有效性。其次,为了有效利用计算资源,减少资源浪费,提出了一种离散时间非线性系统的自适应事件触发约束控制方法。设计了一个触发条件,并证明了该条件下系统是渐近稳定的。在线对神经网络进行迭代更新,从而获得事件触发控制下的近似最优控制策略。仿真验证了所提事件触发约束控制方法的出色性能。最后,针对一类离散时间非线性切换系统,提出了一种自适应近似最优控制方法。设计了一个新颖的模型网络估计系统的输入状态,以获得系统动态信息。对神经网络结构进行离线迭代训练,获得切换系统的近似最优控制策略。仿真验证了基于自适应动态规划的切换系统最优控制方法的有效性。
赵嘉琦[9](2020)在《汽车漂移的临界稳定性控制与自适应动态规划方法》文中研究指明漂移是一种车辆在后轮饱和状态下的侧滑运动,通常出现在拉力赛场或者汽车特技表演中,只有非常有驾驶经验的职业赛车手才能实现。目前的车辆动力学控制将漂移视作一种不稳定状态,认为它是危险的,因此其控制策略是尽量的抑制后轮打滑,以避免漂移的出现。当出现车辆碰撞或者路面摩擦系数突然降低等极限工况时,车辆已经出现侧滑情况,利用漂移稳定控制车辆相比于抑制其产生的策略能够更快的将车辆状态稳定下来,以避免失控或发生二次碰撞产生危险。所以对于漂移稳定性的动力学研究和控制实际上对提升车辆的稳定性边界有很大意义,能够在更多的场景下稳定车辆,提升安全性。本文依托国家自然科学基金重大项目“极限工况下汽车运动一体化协同控制”(项目编号:61790564),对于车辆的漂移平衡点进行了动力学分析,并且设计了滑模控制与自适应动态规划联合控制器,主要内容如下:1.建立了二自由度非线性车辆模型以及纯侧偏稳态统一轮胎模型,并且根据轮胎侧偏力试验数据对轮胎力公式中参数进行参数辨识。2.计算二自由度车辆系统平衡点,并且在质心侧偏角和横摆角速度组成的状态空间相平面上分析各平衡点稳定性,将平衡点分为了稳定平衡点和不稳定平衡点,并且根据漂移的特征,确定漂移平衡点为不稳定平衡点。3.以计算出来的漂移平衡点为控制目标,设计车辆漂移滑模控制器。在MATLAB/Simulink环境下进行仿真,实现了从车辆初始直线行驶状态到给定的漂移平衡点的整个过程,并且在稳定后施加阶跃扰动,结果显示系统仍能回到平衡点。4.基于自适应动态规划方法,采用带有参数逼近器的Q值迭代算法,计算车辆漂移的最优控制策略函数,并且结合滑模控制器设计联合切换控制器,具体策略为当前系统状态误差较大时采用滑模控制,当车辆状态接近漂移平衡点时切换为自适应动态规划最优控制。仿真实现了直线行驶主动进入漂移平衡后主动退出漂移进入正常行驶平衡的整个过程。结果显示相比于单独的滑模控制器,联合控制器的收敛时间更短,并且在施加干扰后,能够控制车辆进入当前状态下距离最近的漂移平衡点,保持稳定。该控制器对于摩擦系数的改变也具有一定的适应能力,这意味着路面情况突然变化时,该算法能够提高车辆的安全性。
徐珂[10](2020)在《基于自适应动态规划的Stackelberg微分对策的研究》文中进行了进一步梳理现实世界中充满着矛盾、对抗、冲突或合作等问题,微分对策作为能够通过数学方式对这些复杂问题进行有效刻画和处理的重要方法,自提出以来就备受重视。微分对策现有的研究成果大部分集中在决策者决策地位相同的这一类中,比如熟知的纳什均衡问题;在决策者决策地位不在同一层级的这一类微分对策问题(即Stackelberg微分对策)中,虽然也有较长的研究时间,但还有很大的研究空间。Stackelberg微分对策问题中领导者可以预见跟随者的所有潜在的行动方案,进而结合预知信息辅助来确定自己利益最大化的决策。本文结合自适应动态规划算法对线性和非线性二人Stackelberg微分对策问题进行了重点研究,对神经网络结构的权重更新率进行改进,设计出了新的Stackelberg微分对策控制率,并取得了良好的控制效果。首先,对微分对策的诞生和发展作了回顾,并将其和典型控制理论中的最优控制进行了比较,并重点介绍了Stackelberg微分对策问题的研究现状。针对Stackelberg微分对策问题研究的不足,引入ADP方法,并对ADP的提出和发展作了简要介绍。其次,介绍了微分对策问题的基本概念和Stackelberg微分对策的基本概念,并对自适应动态规划的基础知识以及发展进行了详细介绍,同时特别介绍了Levenberg-Marquardt算法。然后,对自适应动态规划分别在线性和非线性Stackelberg微分对策问题上的应用进行了研究。对Riccati方程和HJI方程进行求解得到了Stackelberg均衡解的形式,再通过神经网络对求得的解进行近似,总结了基于策略迭代的自适应迭代算法,并推导证明了算法的收敛性。随后,借助数值仿真验证了理论结果。最后,对本文进行了总结,并为自适应动态规划在Stackelberg微分对策问题上的深入研究指明了方向和对未来工作的展望。
二、一类多阶段决策过程方程迭代算法的收敛速度(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、一类多阶段决策过程方程迭代算法的收敛速度(论文提纲范文)
(1)基于强化学习的几类多智能体系统协同优化控制算法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景和意义 |
1.2 国内外研究现状 |
1.2.1 多智能体系统协同控制的研究现状 |
1.2.2 强化学习技术的研究现状 |
1.2.3 基于强化学习的多智能体系统协同优化控制算法的研究现状 |
1.3 论文主要研究内容及贡献 |
1.3.1 主要研究内容和章节安排 |
1.3.2 主要贡献 |
第2章 预备知识 |
2.1 代数图论 |
2.2 矩阵理论 |
2.3 控制理论 |
2.4 人工神经网络 |
2.5 强化学习算法 |
2.5.1 策略迭代算法 |
2.5.2 积分强化学习算法 |
2.6 本章小结 |
第3章 一类线性领导者-跟随者多智能体系统全局协同最优一致性算法研究 |
3.1 系统模型和问题概述 |
3.1.1 系统模型 |
3.1.2 问题描述 |
3.2 基于强化学习的算法研究 |
3.2.1 基于模型的策略迭代算法 |
3.2.2 无模型off-policy积分强化学习算法 |
3.2.3 基于神经网络的无模型off-policy强化学习算法 |
3.3 仿真结果 |
3.4 小结 |
第4章 一类非线性无领导者多智能体系统全局协同最优一致性算法研究 |
4.1 系统模型和问题概述 |
4.1.1 系统模型 |
4.1.2 问题描述 |
4.2 基于强化学习的算法研究 |
4.2.1 基于模型的策略迭代算法 |
4.2.2 无模型off-policy积分强化学习算法 |
4.2.3 基于神经网络的无模型off-policy强化学习算法 |
4.3 仿真结果 |
4.3.1 5个智能体组成的多智能体系统仿真 |
4.3.2 20个智能体组成的多智能体系统仿真 |
4.4 小结 |
第5章 一类线性离散时间多智能体系统协同最优输出调节算法研究 |
5.1 系统模型和问题概述 |
5.1.1 系统模型 |
5.1.2 问题描述 |
5.2 分布式控制器的设计 |
5.2.1 自适应分布式观测器的设计 |
5.2.2 次优分布式控制器的设计 |
5.3 基于强化学习的算法研究 |
5.3.1 求解最优反馈增益K_(xi)~*的策略迭代算法 |
5.3.2 基于数据的off-policy强化学习算法 |
5.4 仿真结果 |
5.5 小结 |
第6章 总结与展望 |
6.1 本文总结 |
6.2 未来展望 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(2)电力系统状态检修决策的多阶段随机优化理论研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 检修模式和电力系统检修决策理论的发展历程 |
1.2.2 电力系统状态检修决策理论的研究现状 |
1.3 目前存在的问题 |
1.4 本文研究内容 |
第2章 多阶段随机优化问题概述 |
2.1 引言 |
2.2 多阶段随机优化的基本理论 |
2.3 问题描述 |
2.4 本章小结 |
第3章 考虑N-K安全约束的两阶段鲁棒-随机优化模型 |
3.1 引言 |
3.2 问题描述 |
3.2.1 两阶段决策过程 |
3.2.2 考虑N-K安全约束的系统状态检修决策模型 |
3.2.3 设备元件不可用度计算 |
3.2.4 两阶段鲁棒-随机优化模型 |
3.3 算法 |
3.3.1 分解算法框架 |
3.3.2 C&CG算法 |
3.3.3 增强型C&CG算法 |
3.4 算例 |
3.4.1 算例1:简单系统 |
3.4.2 算例2:修改的RTS79系统 |
3.5 本章小结 |
第4章 基于检修门槛决策规则的多阶段随机优化模型 |
4.1 引言 |
4.2 问题描述 |
4.2.1 基于检修门槛决策规则的多阶段决策过程 |
4.2.2 设备状态转移过程 |
4.2.3 设备可用度及期望故障次数计算 |
4.2.4 基于检修门槛决策规则的多阶段随机优化模型 |
4.3 算法 |
4.4 算例 |
4.4.1 算例1:RTS79系统 |
4.4.2 算例2:扩展的RTS79系统 |
4.5 本章小结 |
第5章 自适应多阶段随机优化模型 |
5.1 引言 |
5.2 问题描述 |
5.2.1 多阶段决策过程 |
5.2.2 多阶段随机优化模型 |
5.2.3 马尔可夫决策过程 |
5.2.4 设备状态转移概率计算 |
5.3 近似动态规划 |
5.3.1 动态规划的三种维数灾 |
5.3.2 用决策后状态重构动态规划 |
5.3.3 正向动态规划 |
5.3.4 用抽样状态空间代替真实状态空间 |
5.3.5 近似值函数 |
5.4 算例 |
5.4.1 算例1:简单系统1 |
5.4.2 算例2:简单系统2 |
5.4.3 算例3:修改的RTS79系统 |
5.5 本章小结 |
第6章 结论与展望 |
参考文献 |
致谢 |
攻读博士学位期间发表与录用的学术论文 |
攻读博士学位期间参与的课题研究与项目研发 |
学位论文评阅及答辩情况表 |
(3)重载列车在长大下坡区段的运行曲线优化方法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 动车组列车驾驶策略优化方法 |
1.2.2 重载列车驾驶策略优化方法 |
1.2.3 已有研究总结与发展趋势 |
1.3 本文主要框架 |
2 模型建立 |
2.1 优化目标 |
2.2 列车动力学模型 |
2.2.1 动力学模型 |
2.2.2 列车运行时的牵引力和制动力 |
2.2.3 列车运行阻力 |
2.3 约束条件 |
3 基于人工蜂群算法的重载列车驾驶曲线优化方法 |
3.1 人工蜂群算法介绍 |
3.1.1 算法原理 |
3.1.2 算法模型与实现步骤 |
3.2 算法设计 |
3.2.1 决策变量 |
3.2.2 初始解生成 |
3.2.3 约束条件处理 |
3.2.4 离散化方法 |
3.2.5 算法实现 |
3.3 仿真结果与分析 |
3.3.1 仿真参数设置 |
3.3.2 按位移进行离散化 |
3.3.3 按时间进行离散化 |
3.3.4 算法参数分析 |
3.4 本章小结 |
4.基于混合整数线性规划的重载列车驾驶曲线优化方法 |
4.1 MILP模型与分支界定法简介 |
4.1.1 MILP模型与应用 |
4.1.2 分支界定法 |
4.2 算法设计 |
4.2.1 决策变量与优化目标 |
4.2.2 转化规则 |
4.2.3 优化模型的转化 |
4.3 仿真结果与分析 |
4.3.1 算法有效性验证 |
4.3.2 参数分析 |
4.3.3 优化方法对比 |
4.4 本章小结 |
5.基于近似动态规划的重载列车驾驶曲线优化方法 |
5.1 ADP基础理论 |
5.1.1 有限MDP |
5.1.2 ADP算法的基本思想 |
5.1.3 值函数的近似方法 |
5.1.4 近似迭代算法 |
5.2 基于ADP算法的优化问题建模 |
5.2.1 决策时刻 |
5.2.2 状态 |
5.2.3 动作 |
5.2.4 状态转移函数 |
5.2.5 代价函数 |
5.2.6 目标函数 |
5.2.7 重载列车运行过程描述 |
5.3 基于ADP的求解方法 |
5.3.1 基函数结构选取 |
5.3.2 约束条件处理 |
5.3.3 近似值函数算法设计 |
5.4 仿真结果与分析 |
5.4.1 算法有效性验证 |
5.4.2 优化方法对比 |
5.5 本章小结 |
6 总结与展望 |
6.1 研究总结 |
6.2 论文创新点 |
6.3 展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(4)基于自适应动态规划的多智能体一致性控制方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 多智能体协同控制研究进展 |
1.2.2 ADP国内外研究现状 |
1.3 研究内容与组织机构 |
第2章 理论基础简介 |
2.1 通信拓扑图 |
2.2 自适应动态规划的基本理论 |
2.3 分布一致性问题 |
2.4 本章小结 |
第3章 基于自适应动态规划的输入受限多智能体一致性控制 |
3.1 输入饱和的非线性多智能体系统及协同控制算法 |
3.1.1 输入饱和的多智能体系统 |
3.1.2 输入饱和的多智能体一致性ADP算法设计 |
3.2 策略迭代算法及收敛性分析 |
3.3 输入受限条件下在线NN控制器设计 |
3.4 输入饱和多智能体一致性仿真实验 |
3.5 本章小结 |
第4章 外界干扰下基于自适应动态规划的多智能体一致性控制 |
4.1 外界干扰下的非线性系统及协同控制算法 |
4.1.1 外界干扰下的多智能体系统 |
4.1.2 外界干扰下多智能体的最优一致性控制算法 |
4.2 外界干扰下基于ADP的在线NN控制器设计及稳定性分析 |
4.3 外界干扰下多智能体一致性仿真实验 |
4.4 本章小结 |
第5章 外界干扰下输入受限的多智能体一致性最优控制 |
5.1 外界干扰下输入受限的非线性系统及协同控制算法 |
5.1.1 外界干扰下输入受限的多智能体系统 |
5.1.2 外界干扰下输入受限的多智能体系统的最优控制算法 |
5.2 外界干扰下输入饱和多智能体系统在线NN控制器设计及稳定性分析 |
5.3 外界干扰下输入饱和的多智能体一致性仿真实验 |
5.4 本章小结 |
第6章 结论与展望 |
6.1 工作总结 |
6.2 研究展望 |
参考文献 |
致谢 |
作者简历及攻读学位期间发表的学术论文与研究成果 |
(5)基于自适应动态规划的分布式控制研究及应用(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 国内外研究发展与现状 |
1.2.1 自适应动态规划 |
1.2.1.1 传统的自适应动态规划 |
1.2.1.2 无模型的增强学习 |
1.2.2 基于ADP的多智能体系统控制 |
1.3 本文的主要研究内容及组织结构 |
第二章 自适应动态规划的理论基础 |
2.1 动态规划的基本原理 |
2.1.1 离散时间系统的动态规划 |
2.1.2 连续时间系统的动态规划 |
2.2 自适应动态规划的基本框架 |
2.3 近似迭代算法原理 |
2.3.1 值迭代算法 |
2.3.2 策略迭代算法 |
2.4 本章小结 |
第三章 基于数据驱动的多智能体系统最优跟踪控制 |
3.1 引言 |
3.2 最优跟踪控制问题建模 |
3.3 分布式最优控制设计 |
3.3.1 离散Hamilton-Jacobi-Bellman方程 |
3.3.2 两阶段策略迭代算法 |
3.3.3 算法性能及控制系统稳定性分析 |
3.4 基于神经网络的在线学习实现方法 |
3.4.1 Critic网络设计 |
3.4.2 Actor网络设计 |
3.5 数值仿真分析 |
3.6 本章小结 |
第四章 基于自适应动态规划的多智能体系统包含控制 |
4.1 引言 |
4.2 离散时间系统的包含控制问题 |
4.2.1 最优包含控制问题建模 |
4.2.2 分布式最优控制设计与分析 |
4.2.3 执行-评价神经网络的控制实现 |
4.2.4 数值仿真分析 |
4.3 带有扰动的连续时间系统的包含控制问题 |
4.3.1 分布式最优包含控制设计 |
4.3.2 稳定性分析 |
4.3.3 最优控制的在线学习 |
4.3.4 数值仿真分析 |
4.4 本章小结 |
第五章 合作-竞争网络下多智能体系统的最优输出反同步控制 |
5.1 引言 |
5.2 最优输出反同步控制问题建模 |
5.3 基于输入-输出数据的多智能体系统模型重构 |
5.4 基于可测数据的分布式最优控制设计 |
5.4.1 基于可测数据的值迭代算法 |
5.4.2 系统稳定性分析 |
5.4.3 算法收敛性分析 |
5.5 增量式执行-评价网络在线求解方法 |
5.5.1 增量式Critic网络设计 |
5.5.2 增量式Actor网络设计 |
5.5.3 在线学习控制算法 |
5.6 数值仿真分析 |
5.7 本章小结 |
第六章 基于自适应动态规划的下肢外骨骼机器人助行控制 |
6.1 引言 |
6.2 外骨骼系统人机协同控制问题建模 |
6.2.1 穿戴者-外骨骼交互机制 |
6.2.2 系统动力学建模与问题描述 |
6.3 基于自适应动态规划的分布式控制策略 |
6.3.1 分布式助行控制算法设计 |
6.3.2 基于神经网络的在线学习机制 |
6.4 仿真实验分析 |
6.4.1 数值仿真分析 |
6.4.2 下肢助行外骨骼实验验证 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 全文总结 |
7.2 后续工作展望 |
致谢 |
参考文献 |
攻读博士学位期间取得的成果 |
(7)基于离散多项式模糊模型的跟踪控制方法研究及应用(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景及研究的目的和意义 |
1.2 多项式模糊系统及其研究现状 |
1.3 反馈线性化控制方法及其研究现状 |
1.4 强化学习方法及其研究现状 |
1.4.1 现代强化学习 |
1.4.2 模糊强化学习 |
1.5 主要研究内容与论文结构 |
第2章 基于反馈线性化方法的完全跟踪控制 |
2.1 引言 |
2.2 预备知识 |
2.3 离散多项式模糊系统及其局部稳定性分析 |
2.3.1 离散多项式模糊系统 |
2.3.2 基于Lyapunov第一法的局部稳定性分析 |
2.4 完全跟踪控制器设计 |
2.4.1 控制器设计方法 |
2.4.2 控制器存在性判定条件 |
2.4.3 控制器输出有界性分析 |
2.5 仿真研究 |
2.5.1仿真算例1 |
2.5.2仿真算例2 |
2.6 本章小结 |
第3章 基于反馈线性化方法的渐近跟踪控制 |
3.1 引言 |
3.2 离散多项式模糊系统 |
3.3 渐近跟踪控制器设计 |
3.3.1 控制器设计方法 |
3.3.2 控制器存在性判定条件 |
3.4 仿真研究 |
3.4.1仿真算例1 |
3.4.2仿真算例2 |
3.5 本章小结 |
第4章 基于强化学习方法的最优跟踪控制 |
4.1 引言 |
4.2 基于动态规划的离散最优控制 |
4.3 强化学习结构及其策略迭代算法 |
4.3.1 强化学习经典结构 |
4.3.2 强化学习策略迭代算法 |
4.4 最优跟踪控制器设计 |
4.5 基于多项式模糊模型的执行器-评价器结构 |
4.5.1 评价器实现 |
4.5.2 执行器实现 |
4.6 仿真研究 |
4.6.1 系统离散化模型 |
4.6.2 控制器设计过程 |
4.6.3 仿真结果 |
4.7 本章小结 |
第5章 旋翼式飞行模拟器平台实验 |
5.1 引言 |
5.2 二自由度旋翼式飞行模拟器实验平台 |
5.2.1 硬件结构 |
5.2.2 软件平台 |
5.3 实验控制律设计及结果 |
5.3.1 实际系统参数拟合 |
5.3.2 俯仰角轨迹跟踪控制律设计 |
5.3.3 实验结果 |
5.4 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其它成果 |
致谢 |
个人简历 |
(8)基于迭代神经动态规划的优化控制研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景及研究意义 |
1.2 国内外研究现状 |
1.2.1 ADP的发展及研究现状 |
1.2.2 事件触发自适应控制方法的研究 |
1.2.3 切换系统自适应控制方法的研究 |
1.3 本文的主要工作 |
第2章 一类带有饱和约束的离散非线性系统的优化控制 |
2.1 问题描述 |
2.2 迭代ADP算法及其收敛性 |
2.3 基于GDHP技术的迭代ADP算法实现 |
2.3.1 模型网络 |
2.3.2 评价网络 |
2.3.3 执行网络 |
2.3.4 设计步骤 |
2.4 仿真研究 |
2.5 本章总结 |
第3章 一类带约束离散非线性系统的事件触发优化控制 |
3.1 问题描述 |
3.2 事件触发条件下的稳定性证明 |
3.3 事件触发控制器设计 |
3.4 仿真研究 |
3.5 本章总结 |
第4章 一类离散非线性切换系统的优化控制 |
4.1 问题描述 |
4.2 迭代ADP算法及其收敛性分析 |
4.2.1 迭代ADP算法 |
4.2.2 收敛性分析 |
4.3 基于GDHP技术的神经网络实现 |
4.3.1 模型网络 |
4.3.2 评价网络 |
4.3.3 执行网络 |
4.4 仿真研究 |
4.5 本章总结 |
第5章 总结与展望 |
5.1 研究总结 |
5.2 研究展望 |
参考文献 |
发表论文和参加科研情况说明 |
致谢 |
(9)汽车漂移的临界稳定性控制与自适应动态规划方法(论文提纲范文)
摘要 |
ABSRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状与进展 |
1.2.1 后轮饱和状态下车辆动力学控制 |
1.2.2 自适应动态规划 |
1.3 本文主要研究内容 |
第2章 车辆动力学模型及轮胎模型 |
2.1 二自由度非线性车辆动力学模型 |
2.2 轮胎模型 |
2.3 本章小结 |
第3章 漂移平衡点临界稳定性分析 |
3.1 漂移平衡点计算 |
3.2 相平面临界稳定性分析 |
3.3 本章小结 |
第4章 车辆漂移滑模控制器设计 |
4.1 滑模控制的基本原理 |
4.2 车辆漂移滑模控制器设计 |
4.3 车辆漂移滑模控制器仿真结果分析 |
4.4 本章小结 |
第5章 车辆漂移自适应动态规划联合控制器设计 |
5.1 自适应动态规划方法概述 |
5.2 基于近似值迭代的自适应动态规划算法 |
5.3 联合控制器设计及仿真 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 全文总结 |
6.2 研究展望 |
参考文献 |
作者简介及在学期间所取得的科研成果 |
致谢 |
(10)基于自适应动态规划的Stackelberg微分对策的研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 微分对策的研究现状 |
1.2.2 自适应动态规划的研究现状 |
1.2.3 自适应动态规划在微分对策中的应用 |
1.3 本文主要研究内容和章节结构安排 |
2 理论基础 |
2.1 微分对策相关理论介绍 |
2.1.1 微分对策基础 |
2.1.2 Stackelberg微分对策基本概念 |
2.1.3 微分对策的一般求解 |
2.2 自适应动态规划相关理论 |
2.2.1 自适应动态规划基础 |
2.2.2 自适应动态规划的发展 |
2.3 本章小结 |
3 基于自适应动态规划的一类线性Stackelberg微分对策问题的求解 |
3.1 问题描述 |
3.2 基于ADP方法的线性二人Stackelberg微分对策控制率设计 |
3.3 稳定性分析 |
3.4 仿真验证及结果分析 |
3.5 本章小结 |
4 基于自适应动态规划的一类非线性Stackelberg微分对策问题的求解 |
4.1 问题描述 |
4.2 基于ADP方法的非线性二人Stackelberg微分对策控制率设计 |
4.3 稳定性分析 |
4.4 仿真验证及结果分析 |
4.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
致谢 |
四、一类多阶段决策过程方程迭代算法的收敛速度(论文参考文献)
- [1]基于强化学习的几类多智能体系统协同优化控制算法研究[D]. 王红. 中国科学技术大学, 2021(08)
- [2]电力系统状态检修决策的多阶段随机优化理论研究[D]. 许易经. 山东大学, 2021
- [3]重载列车在长大下坡区段的运行曲线优化方法研究[D]. 黄宇澄. 北京交通大学, 2021(02)
- [4]基于自适应动态规划的多智能体一致性控制方法研究[D]. 邓云红. 中国科学院大学(中国科学院大学人工智能学院), 2020(04)
- [5]基于自适应动态规划的分布式控制研究及应用[D]. 彭知南. 电子科技大学, 2020(03)
- [6]现代优化理论与应用[J]. 邓琪,高建军,葛冬冬,何斯迈,江波,李晓澄,王子卓,杨超林,叶荫宇. 中国科学:数学, 2020(07)
- [7]基于离散多项式模糊模型的跟踪控制方法研究及应用[D]. 任立伟. 哈尔滨工业大学, 2020(01)
- [8]基于迭代神经动态规划的优化控制研究[D]. 廖凯举. 天津大学, 2020(02)
- [9]汽车漂移的临界稳定性控制与自适应动态规划方法[D]. 赵嘉琦. 吉林大学, 2020(08)
- [10]基于自适应动态规划的Stackelberg微分对策的研究[D]. 徐珂. 大连理工大学, 2020(02)