1. 项目概述
软体机器人控制一直是个极具挑战性的领域。与刚性机器人相比,软体机器人具有更好的安全性和环境适应性,但其高度非线性的动力学特性使得传统控制方法难以奏效。我们团队最近完成了一项突破性实验:在3D打印的软体Stewart平台上,实现了基于强化学习的实时动态平衡控制。
这个六自由度并联平台由六个基于手性剪切超材料(HSA)的软体执行器驱动。最令人兴奋的是,我们不仅实现了中心平衡,还能让平台在任意指定位置保持平衡 - 即使中途故意破坏了一半的执行器,系统仍能在15分钟内重新学习并维持稳定。
2. 核心技术解析
2.1 软体执行器设计
HSA执行器是我们平台的核心创新。这些3D打印的TPU材料结构具有独特的力学特性:
- 双向运动耦合:旋转输入能转换为线性伸缩
- 高力输出:最大可承受2.5N的轴向载荷
- 损伤容错:即使主要螺旋结构被剪断,仍能保持部分功能
我们测量了新旧执行器的性能差异:
| 参数 | 新执行器 | 使用80小时后 |
|---|---|---|
| 标称长度 | 136mm | 124mm |
| 延伸率 | 12.3mm/rad | 13.8mm/rad |
2.2 强化学习框架
我们对比了三种RL算法在动态平衡任务中的表现:
- NN-MPPI:基于神经网络的模型预测控制
- MaxDiff:最大扩散强化学习
- SAC:柔性Actor-Critic算法
2.2.1 状态空间设计
观察空间包含9个维度:
- 冰球位置(x,y)及速度
- 平台欧拉角(φ,θ,ψ)
- 目标平衡点坐标(X,Y)
2.2.2 奖励函数
采用复合奖励设计:
r = 250P + 24V + 50A其中:
- P:位置误差惩罚
- V:速度方向惩罚
- A:动作平滑项
3. 关键实现细节
3.1 课程学习策略
任意点平衡的最大挑战是冰球容易卡在角落。我们开发了渐进式训练策略:
def curriculum_sample(step_count): λ = min(step_count*γ + λ0, 1)*R # 动态扩展采样半径 β,φ = uniform(0,1) # 随机采样 x = λβ*sin(2πφ) # 极坐标转换 y = λβ*cos(2πφ) return x,y这个策略确保训练初期目标点集中在平台中心附近,随着学习进度逐步扩大范围。
3.2 实时控制架构
系统以60Hz频率更新状态,15Hz发送控制指令。关键组件包括:
- AprilTag视觉追踪
- Hough圆检测算法
- 刚体Stewart平台逆运动学模型:
L = ||RP - B + T||
重要提示:虽然使用刚体模型近似,但实际控制效果依赖于RL学习到的非线性补偿。
4. 实验结果分析
4.1 算法性能对比
在中心平衡任务中,各算法表现:
| 算法 | 平均误差 | 训练时间 | 稳定性 |
|---|---|---|---|
| NN-MPPI | 1.98cm | 15min | ★★★★☆ |
| MaxDiff | 3.72cm | 15min | ★★★☆☆ |
| SAC | 6.38cm | 75min | ★★☆☆☆ |
MaxDiff在任意点平衡任务中表现最优,比NN-MPPI误差降低38%。
4.2 异常情况处理
最令人惊讶的是系统的容错能力:
- 执行器屈曲:将3个执行器过度延伸240°后,系统仍能保持平衡
- 执行器破坏:用剪线钳切断主要螺旋结构后,性能仅下降7%
5. 实操经验分享
5.1 调试技巧
- 动作平滑:设置0.3-0.7的滤波系数可减少平台振荡
- 视觉校准:AprilTag安装角度偏差应<2°
- 执行器维护:每40小时需更换TPU执行器
5.2 常见问题排查
| 现象 | 可能原因 | 解决方案 |
|---|---|---|
| 冰球持续漂移 | 平台水平校准不准 | 重新校准IMU零点 |
| 高频振荡 | 奖励函数中速度项权重过高 | 调整b参数至15-25 |
| 学习停滞 | 冰球卡在角落 | 启用课程学习策略 |
6. 应用前景
这项技术的潜在应用包括:
- 手术机器人精密控制
- 易碎物品搬运
- 动态地形行走机器人
我们正在探索将这种方法扩展到多机器人协作场景。一个有趣的发现是:当系统学会补偿执行器损坏后,其控制策略对其他干扰也表现出更好的鲁棒性。