• 【论文笔记】基于强化学习的连续型机械臂自适应跟踪控制


    摘要

    针对问题】空间主动碎片清除操作连续型三臂节机器人系统跟踪
    提出方法】一种基于强化学习的自适应滑模控制算法(强化学习 + 滑模控制)
    具体内容】(1)基于数据驱动的建模方法,采用 BP 神经网络对三臂节连续型机械臂进行建
    模;(2)神经网络作为预测模型指导强化学习实时调节所提出滑模控制器的控制参数,从而实现连续型机器人运动的实时跟踪控制。
    得出效果】高精度、更低的超调量和更短的调节时间

    关键词

    • 空间连续型机器人;
    • 强化学习;
    • 预测控制;
    • 滑模控制;
    • 轨迹跟踪;

    0 引言

    问题背景
    (1)逐渐增多的空间碎片对在轨航天器构成了重大的威胁 → \rightarrow 空间主动碎片清除技术的重要性;
    (2)连续型机械臂具有占用空间小柔软灵活等特点 → \rightarrow 通过主动变形在有限的工作空间内完成复杂的动作 → \rightarrow 呈现出高度非线性的动力学特征 → \rightarrow 传统建模方法在参数摄动外部干扰等不确定因素下性能表现差

    前人研究
    (1)基于神经网络的建模及控制方法:

    学者工作效果
    Grassmann RLai J前馈神经网络分别拟合连续型机械臂的正逆运动学模型较高的精度
    Thuruthel前馈神经网络递归神经网络学习连续型机械臂的动力学模型,用以拟合机械臂的动态响应并进行评估,并据此构建开环控制策略大量的监督数据;限制了机械臂的运动轨迹

    不足之处:由于拟合模型的精度依赖于监督数据的完备性,导致模型仍不可避免的会受到过拟合问题的影响 + 开环控制策略进一步限制运动轨迹
    (2)模型预测控制方法:

    学者工作效果
    Li提出了一种机器人运动规划网络 MPC-MPNet;网络生成可行路径 + 模型预测控制实现避障执行正向路径扩展,不适合在动态障碍物环境中进行实时规划
    Ouyang一种具有指数加权预测范围的模型预测控制器;建立接触过程中机器人驱动空间变形空间的线性近似模型,来实现在接触力作用下的连续型机器人主动变形控制依赖接触变形近似模型的精度
    Tang一种迭代学习模型预测控制方法;通过伪刚体模型对执行器的变形进行初步预测,利用迭代学习不断降低模型误差,最后由模型预测控制实现机器人变形适用于具有一定刚度的软管式连续型机器人,对弯曲特性较明显的表现较差

    不足之处:容易局部最优;不具有外部探索的能力 → \rightarrow 无法对外部的反馈信息做进一步处理;不能拓展到大型机器人中
    (3)将深度强化学习引入模型预测控制滚动优化的奖励策略

    学者工作效果
    Frazelle采用 Actor-Critic 框架的策略搜索方法实现运动学控制对状态和动作进行了离散化 → \rightarrow 造成了一些损失;难以扩展到更复杂的环境中
    Shin采用神经网络学习视觉空间下软组织受力时的动力学模型 → \rightarrow 预测其动态响应 → \rightarrow 基于模型预测控制的强化学习来对机械臂进行操纵(针对手术机器人与软体组织接触的问题)离散数据影响;演示数据影响
    Thuruthel基于模型的连续型机器人机械手闭环预测控制的策略学习算法;采用递归神经网络拟合前向模型 + 采用强化学习进行轨迹优化 + 推导出闭环策略随机打靶法进行轨迹采样的方法需要大量的数据,且不具有完备性,无法在大范围跟踪运动控制中获得合理解

    本文工作

    1. 提出一种数据驱动的多层前馈神经网络模型;
    2. 设计了变结构控制器;
    3. 在双延迟深度确定性策略梯度算法的基础上,引入模型预测控制原理;

    1 空间连续型机器人动力学模型

    1.1 场景假设

    (1) 环境假设

    1. 机器人已被送至碎片附近;
    2. 位姿调整使得机械臂进入可以捕获碎片的范围内;
    3. 末端装有用于实时监测的传感器 + 执行器;

    (2) 模型假设

    1. 节盘与驱动线之间光滑无摩擦;
    2. 柔性支撑处无外部碰撞
    3. 各臂节变形服从等曲率假设

    论文图片1

    1.2 公式分析

    广义坐标描述机器人运动: q = [ α 1 , α 2 , α 3 ] T \pmb{q}=[\alpha_{1},\alpha_{2},\alpha_{3}]^{T} qq=[α1,α2,α3]T
    当前臂节 i i i 对应的局部坐标系相对于全局坐标系的转角: β i \beta_{i} βi
    当前臂节 i i i 对应的局部坐标系相对于全局坐标系的坐标: ( x i , y i ) (x_{i},y_{i}) (xi,yi)
    当前臂节 i i i 的弯曲形变角度: α i \alpha_{i} αi

    1. 机器人系统动能 T T T
      T = T d + T s = 1 2 q ˙ T M q ˙ (1) T=T^{d}+T^{s}=\frac{1}{2} \dot{q}^{T}M\dot{q} \tag{1} T=Td+Ts=21q˙TMq˙(1)
      T d → T^{d} \rightarrow Td 节盘动能;
      T s → T^{s} \rightarrow Ts 柔性支撑动能;
      M → \pmb{M} \rightarrow MM 机器人系统的质量阵;
    2. 连续型机器人系统弹性力 Q e \pmb{Q_{e}} QeQe对应的虚功:
      δ W e = − ∫ 0 l ∫ A E ϵ δ ϵ d A d s = − Q e T δ q (2) \delta W_{e}=-\int_{0}^{l} \int_{A} E\epsilon \delta \epsilon dAds=-Q_{e}^{T}\delta q \tag{2} δWe=0lAEϵδϵdAds=QeTδq(2)
      E → E \rightarrow E 柔性支撑的弹性模量;
      A → A \rightarrow A 截面面积;
      l → l \rightarrow l 长度;
      ϵ → \epsilon \rightarrow ϵ 中性层的弯曲应变;
      s → s \rightarrow s 局部坐标系下弹性力作用点到原点的弧长;
    3. 机器人系统驱动力 Q a \pmb{Q_{a}} QaQa对应的虚功:
      δ W a = Q a T δ q (3) \delta W_{a}=Q_{a}^{T}\delta q \tag{3} δWa=QaTδq(3)
    4. 系统的动力学方程:
      M q ¨ = − Q e + Q a + Q v (4) M\ddot{q} = -Q_{e}+Q_{a}+Q_{v} \tag{4} Mq¨=Qe+Qa+Qv(4)
      其中: Q v = − M ˙ q ˙ + ( ∂ T ∂ q ) T Q_{v}=-\dot{M}\dot{q}+(\frac{\partial T}{\partial q})^{T} Qv=M˙q˙+(qT)T
    5. f ( t ) f(t) f(t)表征外部干扰和建模误差的列向量:
      f ( t ) = d ( t ) + △ M 0 q ¨ + △ C 0 q f(t)=d(t)+\triangle M_{0}\ddot{q}+\triangle C_{0}q f(t)=d(t)+M0q¨+C0q

    2 空间连续型机器人滑模控制器

    论文图片2
    论文图片3
    (对滑模控制不了解呜呜呜。。。

    3 基于强化学习的滑模控制器

    TD3介绍:

    1. 两个由 θ Q k ( k = 1 , 2 ) \theta^{Q_{k}}(k=1,2) θQk(k=1,2) 参数化的 Critic 网络 Q ( s , a ∣ θ Q k ) Q(s,a|\theta^{Q_{k}}) Q(s,aθQk)
    2. 及一个由 θ μ \theta^{\mu} θμ 参数化的 Actor 网络 μ ( s ∣ θ μ ) \mu(s|\theta^{\mu}) μ(sθμ)
    3. 惩罚系数 ρ \rho ρ 通过滑动平均法更新目标网络参数: θ ′ = ρ θ + ( 1 − ρ ) θ ′ \theta^{\prime}=\rho\theta+(1-\rho)\theta^{\prime} θ=ρθ+(1ρ)θ
    4. 始终选取两个 Critic 网络中的最小值,进行延迟策略更新;
      论文图片4
    5. 引入随机噪声来进一步增加智能体探索环境的能力
      论文图片5

    产生问题:

    1. 传统强化学习的动作策略无法在短期内表现出明显的奖励差异
    2. 每个时间步,不适合频繁调用此类非线性系统动力学方程,容易造成计算负担

    解决问题:引入了数据驱动的学习方法

    1. 计算量小;
    2. 不需要精确的动力学模型信息;
    3. 可针对不同的环境采用对应的数据进行训练;
    4. 具有良好的环境实时交互和迁移能力;
    5. 适用于仿真计算及地面实验;

    本文选用 δ \delta δ k k k作为强化学习的自适应优化参数。
    论文图片6

    4 仿真校验

    论文图片7

    过度冗余的网络输入会导致网络输出对系统状态变化不敏感,降低学习网络的性能;
    而关键输入信息的缺失则导致网络不能有效地反映系统动态变化。

    动作向量 → \rightarrow 滑模控制器的控制参数 δ \delta δ K K K
    状态向量 s s s → \rightarrow 信息包含各节角度角速度角度跟踪误差角速度跟踪误差及下一时刻预期上述信息,来合理地表征机械臂系统目标轨迹的动态信息
    奖励函数 r r r → \rightarrow r = d e + h g o a l r=d_{e}+h_{goal} r=de+hgoal

    论文图片8
    论文图片9
    设计的预测模型训练过程中代价值快速下降,经 70 代训练后已趋于稳定。
    所设计的基于 BP 网络的预测模型可以将拟合的各臂节弯曲角度的相对误差保持在 + / − 1 % +/-1\% +/1% 以内
    验证了该预测模型的准确性

    论文图片10

    • 每代评估时的平均奖励值在逐步提升,策略在逐步优化
    • 由于 f \pmb{f} ff的影响,在每代中的每个 step 对应的奖励值尤其是取得额外奖励的时间会存在差异,导致平均奖励值会存在小幅震荡

    论文图片11
    约于 1.7 s 时便达到稳定跟踪状态
    本文提出的控制器明显具有更低的超调量和更短的调节时间
    本文算法对外部扰动和建模误差具有更强的抑制能力

    5 结论

  • 相关阅读:
    Allegro格式PCB转换成Pads操作指导
    STM32F103RCT6学习笔记1:GPIO认识—点灯
    NAFNet(ECCV 2022)-图像修复论文解读
    Nvidia Jetson Nano学习笔记--使用C语言实现GPIO控制
    【产品运营】如何提升B端产品竞争力(下)
    OpenCV图像处理学习二十一,直方图比较方法
    【码银送书第十期】《强化学习:原理与Python实战》
    Segment Routing — SR-MPLS over UDP
    初阶数据结构学习记录——열 二叉树(3)链式
    快鲸智慧楼宇系统:助力商办楼宇快速实现智慧化、数字化运营
  • 原文地址:https://blog.csdn.net/m0_48948682/article/details/126347847