Vc-Ppo

近端策略优化 $$ \mathcal{L}^{CLIP}(\theta)=\hat{\mathbb{E}}_t\left[\min\left(r_t(\theta)\hat{A}_t,\text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t\right)\right] $$$$ \hat{A}_t=\sum_{l = 0}^{T-t-1}(\gamma\lambda)^l\delta_{t + l} $$ 其中 $\gamma$ 是折扣因子，$\lambda\in[0, 1]$ 是 GAE 参数，而 $\delta_t=r_t+\gamma V(s_{t + 1})-V(s_t)$ 是时序差分 (TD) 误差。此处，$r_t$ 是时间步 $t$ 的奖励，$V(s)$ 是价值函数。由于在 RLHF 中通常将折扣因子设为 $\gamma = 1.0$，为简化表示，我们在本文后续章节中省略了 $\gamma$。识别并解决 PPO 在长 CoT 任务中的失败模式在本节中，我们展示 PPO 在长 CoT 任务中的一个常见失败模式，并从理论和实证角度考察其与预训练及训练中价值偏差的关系。随后，我们提出实用的解决方案来改进 PPO，使其能够避免此类失败。 PPO 在长思维链 (CoT) 任务中的失败模式在从人类反馈中进行强化学习 (Reinforcement Learning from Human Feedback, RLHF) 的领域应用 PPO 时，有两种常见的做法如下：采用默认的广义优势估计 (Generalized Advantage Estimation, GAE)，通常设置 $\lambda = 0.95$。使用一个训练充分的奖励模型 (reward model) 来初始化价值模型 (value model)。第一种做法起源于传统的强化学习文献，在这些文献中，PPO 已经在 Mujoco 和 Atari 等环境中得到了广泛的测试。在这些环境中，奖励 (rewards) 会沿着轨迹 (trajectory) 累积，导致回报 (return) 具有高方差。因此，方差缩减 (variance reduction) 变得十分必要。第二种做法则自然地源于奖励模型和价值模型之间的明显相似性，因为这两种模型都被训练用于预测关于响应 (response) 的标量信息 (scalar information)。然而，我们的实验揭示，将 PPO 轻率地应用于需要长思维链 (CoT) 的任务不可避免地会导致失败，具体如图1所示。 ...