GPG:群体策略梯度

最后更新:07/03/2025。

群体策略梯度(Group Policy Gradient, GPG)是一种极简的强化学习(Reinforcement Learning, RL)方法,它能够在不依赖监督微调或复杂技巧的情况下,提升大语言模型的推理能力。GPG 重新审视了传统的策略梯度方法,直接优化 RL 目标——无需替代损失、无 KL 惩罚、无价值网络,也无需参考模型。与 GRPO 相比,GPG 更简单、更高效,并在许多任务上取得了更好的结果。更多详情,请参阅原始论文 GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning

关键组件

  • 使用修正的优势函数来提升策略梯度的准确性和训练效率。

  • 通过消除价值网络和参考模型,避免 KL 散度约束,这与群体相对策略优化(Group Relative Policy Optimization, GRPO)相比,大大简化了训练过程。

配置

要在框架中配置 GPG,请使用以下 YAML 设置。

algorithm:
  adv_estimator: gpg 
actor_rollout_ref:
  actor:
    policy_loss:
      loss_mode: "gpg"

高级扩展

GPG 是一种简单而强大的模型推理基准。虽然原始形式中避免了使用 KL 损失,但你仍可以使用 KL 损失来进一步提升性能。

algorithm:
  adv_estimator: gpg
actor_rollout_ref:
  actor:
    use_kl_loss: True # 启用 kl 正则化
    kl_loss_coef: 0.01
    policy_loss:
      loss_mode: "gpg"