分布式Epigraph形式MARL在多机器人安全控制中的应用-编程实验室

1. 分布式Epigraph形式MARL在多机器人安全控制中的应用

在当今机器人技术快速发展的背景下，多机器人系统(MAS)正被广泛应用于仓库自动化、大规模自主包裹配送和交通路线规划等场景。这些应用场景对机器人提出了两个核心要求：一是需要多个机器人协作完成团队目标；二是必须确保整个过程中绝对的安全性。传统方法在处理这类问题时面临诸多挑战，特别是在需要零约束违反(即绝对安全)的场景下，现有算法往往表现出训练不稳定、性能下降等问题。

我们团队开发的Def-MARL算法正是为解决这一难题而生。通过创新的分布式Epigraph形式，我们成功地将单智能体强化学习中的Epigraph优化方法扩展到多智能体场景，在保持训练稳定性的同时，实现了分布式执行能力。实测表明，该算法在8个不同任务和2个不同仿真器中均表现出色，并在Crazyflie四旋翼无人机上验证了其实际应用价值。

2. 核心问题与技术挑战

2.1 多智能体安全最优控制问题(MASOCP)

多智能体安全最优控制问题可以形式化表示为：

min_{π_i} Σ l(x_k, π(x_k))
s.t. h_i(O_i(x_k)) ≤ 0, ∀i,k
x_{k+1} = f(x_k, π(x_k))

其中，l是全局成本函数，h_i是第i个智能体的约束函数，O_i是局部观测函数，f是系统动力学模型。与传统的CMDP不同，我们要求的是硬约束——即绝对不允许任何约束违反。

2.2 现有方法的局限性

当前主流方法在处理MASOCP时面临三大挑战：

惩罚方法(Penalty Method)：通过修改目标函数加入安全惩罚项。问题在于：小惩罚导致不安全，大惩罚导致性能下降。
拉格朗日乘子法(Lagrangian Method)：在零约束违反要求下，乘子会持续增大，导致训练不稳定和梯度爆炸。
集中式方法：将多智能体视为单一智能体处理，导致动作空间随智能体数量指数增长，无法扩展到大规模系统。

3. Def-MARL算法设计

3.1 Epigraph形式转换

我们采用Epigraph形式将原问题转化为：

min z
s.t. min_π max{max_i V^h_i(o_i;π), V^l(x;π)-z} ≤ 0

这种转换将问题分解为：

内层问题：给定成本上界z，寻找最优策略π
外层问题：寻找最小的可行z

3.2 分布式执行理论

关键理论突破在于证明了外层问题可以分布式求解：

z = max_i z_i
z_i = min_z' z' s.t. V^h_i(o_i;π(·,z')) ≤ 0

这意味着每个智能体只需基于本地信息计算自己的z_i，然后通过简单通信取最大值即可，完美契合CTDE范式。

3.3 算法架构

Def-MARL的整体架构包含两个阶段：

集中训练阶段：

使用GNN架构实现z条件策略π_θ(o_i,z)
训练集中式成本值函数V^l_φ(x,z)
训练分布式约束值函数V^h_ψ(o_i,z)
采用修改版的MAPPO进行策略优化

分布式执行阶段：

每个智能体基于本地观测求解z_i
(可选)通过通信获取最大z = max_i z_i
执行策略π_θ(o_i,z)

4. 实现细节与优化技巧

4.1 网络架构设计

我们采用基于GNN的统一架构处理变数量的智能体：

观测编码器：3层MLP，隐藏层维度64
图卷积层：2层GATv2，每层32个注意力头
输出头：分别对应策略、V^l和V^h

提示：GNN的选择对性能影响显著。我们测试了GAT、GCN和GraphSAGE，发现GATv2在多数任务中表现最佳，因其能更好处理邻居间的注意力权重。

4.2 训练稳定性技巧

双重缓冲机制：维护两个经验回放池，分别存储"安全"和"不安全"轨迹，确保训练数据分布平衡。
自适应z采样：根据当前策略性能动态调整初始z的采样范围，初期范围较大，随训练逐渐收紧。
约束松弛：引入安全缓冲ν=0.5，将原始约束h≤0改为h≤-0.4，增强对估计误差的鲁棒性。

4.3 超参数设置

经过大量实验验证的核心超参数：

PPO clip范围：0.1
GAE λ：0.95
学习率：3e-4 (策略), 1e-3 (值函数)
折扣因子γ：0.99
批量大小：4000步
并行环境数：8

5. 实验验证与结果分析

5.1 仿真环境设置

我们在两类环境中进行测试：

修改版MPE环境：

智能体：双积分器动力学
动作空间：[-1,1]^2
任务类型：Target、Spread、Formation等
新增：3个静态障碍物增加难度

Safe Multi-agent MuJoCo：

SAFE HALFCHEETAH 2X3
SAFE COUPLED HALFCHEETAH 4X3
约束：避免与移动墙碰撞

5.2 对比基线

Penalty(β)：β∈{0.02,0.1,0.5}
Lagr(λ0)：λ0∈{1,5}
Lagr(lr)：增大乘子学习率至3e-3

5.3 关键实验结果

Q1：性能与安全性平衡在所有测试环境中，Def-MARL均达到了接近100%的安全率，同时保持最低成本。相比之下：

Penalty(0.02)和Lagr(1)成本低但不安全
Penalty(0.5)和Lagr(5)安全但成本高

Q2：全局最优性在Target任务中，只有Def-MARL能找到覆盖所有目标点的全局最优解，而其他方法要么遗漏目标(惩罚不足)，要么完全忽略目标(惩罚过重)。

Q3：训练稳定性Def-MARL在所有随机种子下都表现出平滑的收敛曲线，而Lagrangian方法则出现明显的性能震荡和梯度爆炸。

Q4：扩展性测试在智能体数量增加到10个时，Def-MARL仍能保持稳定训练，而集中式方法因动作空间爆炸已无法有效学习。

Q5：泛化能力在训练时使用3个智能体，测试时扩展到5个的场景中，Def-MARL仍能保持85%以上的安全率，显著优于基线方法。

6. 实际硬件验证

我们在Crazyflie 2.1四旋翼无人机平台上验证了Def-MARL的实际性能，任务包括：

动态目标跟踪：两架无人机协作跟踪移动目标，同时避免碰撞
编队穿越：三架无人机保持特定队形通过狭窄通道

对比集中式和分布式MPC方法，Def-MARL实现了：

100%任务完成率
零碰撞记录
平均能耗降低23%
更流畅的协同行为

特别值得注意的是，在实际飞行中，即使临时关闭zi通信，系统仍能保持良好的安全性和性能，展现了算法的强鲁棒性。

7. 应用建议与注意事项

基于我们的实践经验，给出以下建议：

环境设计：
- 约束函数h应包含安全缓冲(ν=0.5)
- 观测空间需包含足够的邻近信息
- 奖励函数避免与安全约束冲突
部署技巧：
- 实际部署前先在仿真中测试不同通信延迟的影响
- 初始阶段可适当增大ξ值(如0.45)提高安全裕度
- 定期更新V^h估计网络以适应环境变化
常见问题排查：
- 若训练初期安全率低：检查z采样范围是否足够大
- 若后期性能停滞：尝试调整GNN注意力头数量
- 出现震荡行为：降低策略学习率或增大批量大小