【针对问题】空间主动碎片清除操作中连续型三臂节机器人系统跟踪
【提出方法】一种基于强化学习的自适应滑模控制算法(强化学习 + 滑模控制)
【具体内容】(1)基于数据驱动的建模方法,采用 BP 神经网络对三臂节连续型机械臂进行建
模;(2)神经网络作为预测模型指导强化学习实时调节所提出滑模控制器的控制参数,从而实现连续型机器人运动的实时跟踪控制。
【得出效果】高精度、更低的超调量和更短的调节时间
【问题背景】
(1)逐渐增多的空间碎片对在轨航天器构成了重大的威胁
→
\rightarrow
→ 空间主动碎片清除技术的重要性;
(2)连续型机械臂具有占用空间小,柔软灵活等特点
→
\rightarrow
→ 通过主动变形在有限的工作空间内完成复杂的动作
→
\rightarrow
→ 呈现出高度非线性的动力学特征
→
\rightarrow
→ 传统建模方法在参数摄动、外部干扰等不确定因素下性能表现差
【前人研究】
(1)基于神经网络的建模及控制方法:
| 学者 | 工作 | 效果 |
|---|---|---|
| Grassmann R,Lai J | 前馈神经网络分别拟合连续型机械臂的正逆运动学模型 | 较高的精度 |
| Thuruthel | 前馈神经网络、递归神经网络学习连续型机械臂的动力学模型,用以拟合机械臂的动态响应并进行评估,并据此构建开环控制策略 | 大量的监督数据;限制了机械臂的运动轨迹 |
不足之处:由于拟合模型的精度依赖于监督数据的完备性,导致模型仍不可避免的会受到过拟合问题的影响 + 开环控制策略进一步限制运动轨迹
(2)模型预测控制方法:
| 学者 | 工作 | 效果 |
|---|---|---|
| Li | 提出了一种机器人运动规划网络 MPC-MPNet;网络生成可行路径 + 模型预测控制实现避障 | 执行正向路径扩展,不适合在动态障碍物环境中进行实时规划 |
| Ouyang | 一种具有指数加权预测范围的模型预测控制器;建立接触过程中机器人驱动空间和变形空间的线性近似模型,来实现在接触力作用下的连续型机器人主动变形控制 | 依赖接触变形近似模型的精度 |
| Tang | 一种迭代学习模型预测控制方法;通过伪刚体模型对执行器的变形进行初步预测,利用迭代学习不断降低模型误差,最后由模型预测控制实现机器人变形 | 适用于具有一定刚度的软管式连续型机器人,对弯曲特性较明显的表现较差 |
不足之处:容易局部最优;不具有外部探索的能力
→
\rightarrow
→ 无法对外部的反馈信息做进一步处理;不能拓展到大型机器人中
(3)将深度强化学习引入模型预测控制中滚动优化的奖励策略
| 学者 | 工作 | 效果 |
|---|---|---|
| Frazelle | 采用 Actor-Critic 框架的策略搜索方法实现运动学控制 | 对状态和动作进行了离散化 → \rightarrow → 造成了一些损失;难以扩展到更复杂的环境中 |
| Shin | 采用神经网络学习视觉空间下软组织受力时的动力学模型 → \rightarrow → 预测其动态响应 → \rightarrow → 基于模型预测控制的强化学习来对机械臂进行操纵(针对手术机器人与软体组织接触的问题) | 离散数据影响;演示数据影响 |
| Thuruthel | 基于模型的连续型机器人机械手闭环预测控制的策略学习算法;采用递归神经网络拟合前向模型 + 采用强化学习进行轨迹优化 + 推导出闭环策略 | 随机打靶法进行轨迹采样的方法需要大量的数据,且不具有完备性,无法在大范围跟踪运动控制中获得合理解 |
【本文工作】

广义坐标描述机器人运动:
q
=
[
α
1
,
α
2
,
α
3
]
T
\pmb{q}=[\alpha_{1},\alpha_{2},\alpha_{3}]^{T}
qq=[α1,α2,α3]T
当前臂节
i
i
i 对应的局部坐标系相对于全局坐标系的转角:
β
i
\beta_{i}
βi
当前臂节
i
i
i 对应的局部坐标系相对于全局坐标系的坐标:
(
x
i
,
y
i
)
(x_{i},y_{i})
(xi,yi)
当前臂节
i
i
i 的弯曲形变角度:
α
i
\alpha_{i}
αi


(对滑模控制不了解呜呜呜。。。
TD3介绍:


产生问题:
解决问题:引入了数据驱动的学习方法
本文选用
δ
\delta
δ和
k
k
k作为强化学习的自适应优化参数。


过度冗余的网络输入会导致网络输出对系统状态变化不敏感,降低学习网络的性能;
而关键输入信息的缺失则导致网络不能有效地反映系统动态变化。
动作向量
→
\rightarrow
→ 滑模控制器的控制参数
δ
\delta
δ和
K
K
K;
状态向量
s
s
s
→
\rightarrow
→ 信息包含各节角度、角速度、角度跟踪误差、角速度跟踪误差及下一时刻预期上述信息,来合理地表征机械臂系统与目标轨迹的动态信息;
奖励函数
r
r
r
→
\rightarrow
→
r
=
d
e
+
h
g
o
a
l
r=d_{e}+h_{goal}
r=de+hgoal;


设计的预测模型训练过程中代价值快速下降,经 70 代训练后已趋于稳定。
所设计的基于 BP 网络的预测模型可以将拟合的各臂节弯曲角度的相对误差保持在
+
/
−
1
%
+/-1\%
+/−1% 以内
验证了该预测模型的准确性


约于 1.7 s 时便达到稳定跟踪状态
本文提出的控制器明显具有更低的超调量和更短的调节时间
本文算法对外部扰动和建模误差具有更强的抑制能力