告别DQN的离散化烦恼：用DDPG在PyTorch中搞定连续动作空间（附倒立摆实战代码）-编程实验室

深度确定性策略梯度（DDPG）：连续控制任务的终极解决方案

在机器人控制、自动驾驶和工业自动化等领域，连续动作空间的控制问题一直是强化学习实践者面临的重大挑战。传统DQN算法因其离散动作输出的局限性，在处理这类问题时往往需要将连续动作空间离散化，导致维度灾难和性能下降。深度确定性策略梯度（DDPG）算法应运而生，它巧妙结合了确定性策略梯度（DPG）和深度Q网络（DQN）的优势，成为解决连续控制问题的利器。

1. 为什么DDPG是连续控制的首选

1.1 离散化方法的根本缺陷

当我们将DQN应用于连续控制任务时，最常见的做法是将连续动作空间离散化。这种方法看似简单，实则存在三个致命缺陷：

维度爆炸：对于n维动作空间，每维离散为m个区间，动作组合数将呈指数增长（mⁿ）
信息损失：离散化过程丢失了动作之间的关联性和平滑性
样本效率低下：需要探索的动作组合数量剧增，学习速度大幅下降

以倒立摆控制为例，假设力矩输出范围是[-2.0, 2.0]，若每0.1为一个区间，仅一维动作就需要40个离散值。而对于机械臂这类多关节系统，离散化方法很快变得不可行。

1.2 DDPG的核心优势

DDPG通过以下创新设计完美解决了上述问题：

确定性策略输出：直接生成连续动作值，无需离散化
Actor-Critic架构：策略网络（Actor）和价值网络（Critic）协同优化
经验回放：打破数据相关性，提高样本效率
目标网络：稳定训练过程，避免Q值过高估计

# DDPG网络结构示例 class Actor(nn.Module): def __init__(self, state_dim, action_dim, max_action): super().__init__() self.fc1 = nn.Linear(state_dim, 400) self.fc2 = nn.Linear(400, 300) self.fc3 = nn.Linear(300, action_dim) self.max_action = max_action def forward(self, x): x = F.relu(self.fc1(x)) x = F.relu(self.fc2(x)) return self.max_action * torch.tanh(self.fc3(x))

2. DDPG算法深度解析

2.1 关键组件与技术

DDPG的成功源于四大核心技术组件的精妙配合：

Actor网络：参数化策略函数，输入状态输出确定性动作
Critic网络：评估状态-动作对的Q值，指导策略更新
经验回放池：存储转移样本(𝑠,𝑎,𝑟,𝑠′)，随机采样打破相关性
目标网络：稳定训练目标的"慢更新"版本网络

提示：目标网络的更新采用软更新（soft update）方式，通常设置τ=0.005，这比DQN的直接复制参数更加平滑稳定。

2.2 算法流程与数学原理

DDPG的优化过程遵循确定性策略梯度定理：

∇J(θ) = 𝔼[∇θμ(s)∇aQ(s,a)|a=μ(s)]

其中：

μ(s)是确定性策略
Q(s,a)是动作价值函数
θ是策略参数

Critic网络的损失函数采用TD误差：

L = 𝔼[(Q(s,a) - (r + γQ'(s',μ'(s'))))²]

Actor网络的更新则沿着Q值梯度上升方向：

∇θJ ≈ 𝔼[∇θμ(s)∇aQ(s,a)|a=μ(s)]

# DDPG核心更新代码 def update(self, batch): # Critic更新 next_actions = self.actor_target(next_states) target_Q = self.critic_target(next_states, next_actions) target_Q = rewards + (1 - dones) * self.gamma * target_Q current_Q = self.critic(states, actions) critic_loss = F.mse_loss(current_Q, target_Q.detach()) # Actor更新 actor_loss = -self.critic(states, self.actor(states)).mean() # 网络参数更新 self.critic_optimizer.zero_grad() critic_loss.backward() self.critic_optimizer.step() self.actor_optimizer.zero_grad() actor_loss.backward() self.actor_optimizer.step() # 目标网络软更新 soft_update(self.actor, self.actor_target, self.tau) soft_update(self.critic, self.critic_target, self.tau)

3. 倒立摆实战：从零实现DDPG

3.1 环境配置与超参数调优

我们选择Pendulum-v0环境作为测试平台，这是一个经典的连续控制问题。关键超参数设置如下：

参数	推荐值	作用
经验池大小	100,000	存储转移样本
批量大小	64	每次更新采样数
Actor学习率	1e-4	策略网络更新步长
Critic学习率	1e-3	价值网络更新步长
折扣因子γ	0.99	未来奖励衰减系数
软更新系数τ	0.005	目标网络更新速度
探索噪声	0.1	动作探索标准差

# 环境初始化 env = gym.make('Pendulum-v0') state_dim = env.observation_space.shape[0] action_dim = env.action_space.shape[0] max_action = float(env.action_space.high[0]) # 创建DDPG智能体 agent = DDPG(state_dim, action_dim, max_action)

3.2 训练技巧与性能优化

在实际训练中，我们发现以下几个技巧能显著提升DDPG性能：

噪声衰减：随着训练进行，线性减小探索噪声
梯度裁剪：防止Critic网络梯度爆炸
权重初始化：最后一层使用较小初始化范围
批量归一化：稳定深度网络训练过程

注意：倒立摆环境中，及时奖励设计很关键。建议使用角度和角速度的平方和作为负奖励，鼓励稳定平衡。

4. DDPG进阶与扩展应用

4.1 多智能体场景：MADDPG

在多智能体环境中，标准的DDPG会面临环境非平稳性问题。MADDPG（Multi-Agent DDPG）通过以下改进解决了这一挑战：

每个智能体拥有独立的Actor网络
Critic网络可以访问所有智能体的状态和动作信息
集中训练，分散执行

# MADDPG核心结构 class MADDPG: def __init__(self, num_agents, state_dims, action_dims): self.agents = [DDPG(state_dims[i], action_dims[i]) for i in range(num_agents)] def update(self, transitions): # 集中式Critic更新 all_states = torch.cat([s for s in transitions.states]) all_actions = torch.cat([a for a in transitions.actions]) next_actions = [a.target_next_action(s) for a, s in zip( self.agents, transitions.next_states)] # ...其余更新逻辑类似DDPG