配方:熵机制
Last updated: 06/27/2025.
🎉新闻
[2025/05/29] 🎉 在 Huggingface Daily Papers 上排名当天第一。
[2025/05/29] 在 arXiv 上发布了我们的论文。详情请见 这里。我们深入探讨了大型语言模型(LLMs)中强化学习(RL)的熵机制,并提出了两种简单但有效的策略来缓解熵崩溃问题(熵崩溃指的是模型在训练过程中策略熵急剧下降,导致过度自信和性能饱和)。
✨快速开始
准备好训练数据后,对于在单节点上训练 Qwen2.5-7B,以 KL-Cov 方法为例,你可以简单运行:
cd verl
conda activate your_env
bash recipe/dapo/7b_kl_cov.sh
而对于在多节点上训练 Qwen2.5-32B,你可以运行以下命令:
cd verl
conda activate your_env
bash recipe/dapo/32b_kl_cov.sh
📖介绍
本文探讨了在为大型语言模型(LLMs)扩展强化学习(RL)时出现的熵崩溃问题,即策略熵在训练过程中急剧下降,导致模型过度自信和性能停滞。我们通过实验建立了熵(\(H\))与性能(\(R\))之间的关系:\(R=−aexp(H)+b\),表明性能受到熵耗尽的瓶颈限制(这意味着如果熵不能被有效维持,模型的学习效果就会受阻)。
从理论上讲,我们发现熵的变化是由动作概率与 logit 更新之间的协方差驱动的,这种协方差与策略梯度方法中的优势相关。高概率、高优势的动作会降低熵,而罕见但高优势的动作则会增加熵。实验中,协方差项始终为正,这解释了熵的单调下降。为缓解这一问题,我们提出了 Clip-Cov 和 KL-Cov 方法,这些方法通过限制高协方差 token 的更新,来有效防止熵崩溃并提升性能。
📃评估
我们的方法能够在整个训练过程中维持相当高的熵水平。例如,当基准方法的熵达到平稳期且无法进一步耗尽时,KL-Cov 方法仍能维持超过基准 10 倍的熵水平。同时,策略模型的响应长度稳步增加,在测试集上的性能始终优于基准 outperformed。这表明我们的模型在训练期间能够更自由地探索,通过强化学习学到更好的策略。
方法 |
AIME24 |
AIME25 |
AMC |
MATH-500 |
OMNI-MATH |
OlympiadBench |
Minerva |
平均 |
|---|---|---|---|---|---|---|---|---|
Qwen2.5-7B |
||||||||
GRPO |
21.2 |
9.6 |
58.7 |
78.8 |
27.9 |
40.7 |
36.7 |
38.6 |
w. Clip-higher |
18.1 |
11.5 |
56.6 |
79.2 |
29.8 |
43.3 |
40.4 |
38.8 |
w. |
22.1 |
15.8 |
58.2 |
80.4 |
30.5 |
44.1 |
41.1 |
40.4 |
w. |
22.6 |
12.9 |
61.4 |
80.8 |
29.1 |
42.6 |
38.2 |
40.6 |
Qwen2.5-32B |
||||||||
GRPO |
21.8 |
16.2 |
69.7 |
84.2 |
35.2 |
43.6 |
45.5 |
45.8 |
w. Clip-higher |
35.6 |
22.3 |
69.5 |
77.2 |
35.1 |
42.5 |
43.0 |
47.2 |
w. |
32.3 |
22.7 |
67.2 |
87.0 |
42.0 |
57.2 |
46.0 |
50.3 |
w. |
36.8 |
30.8 |
74.5 |
84.6 |
39.1 |
49.0 |
46.3 |
52.2 |
我们的两种方法在所有基准测试中都实现了非平凡的改进。与 GRPO 相比,我们的方法在 7B 模型上平均提升了 2.0%,在 32B 模型上提升了 6.4%。此外,我们观察到,在更大的 Qwen2.5-32B 模型上,我们的方法获得了更显著的收益。具体来说,在最具挑战性的基准 AIME24 和 AIME25 上,我们的方法分别实现了 15.0% 和 14.6% 的提升。
🎈引用
如果您发现本文或这个仓库有帮助,请引用我们。
@article{cui2025entropy,
title={The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models},
author={Cui, Ganqu and Zhang, Yuchen and Chen, Jiacheng and Yuan, Lifan and Wang, Zhi and Zuo, Yuxin and Li, Haozhan and Fan, Yuchen and Chen, Huayu and Chen, Weize and others},
journal={arXiv preprint arXiv:2505.22617},
year={2025}
}
🌻致谢
我们基于 verl 实现了强化学习算法,并使用 vLLM 进行推理。我们的模型主要在 Qwen2.5 系列 上进行训练。训练数据来自于 DAPO-MATH。感谢他们的重要贡献!
📬 联系方式
如果您有疑问、讨论或合作机会,请随时联系:
Ganqu Cui: cuiganqu@pjlab.org.cn
Yuchen Zhang: yuchen.zhang2003@gmail.com
Jiacheng Chen: jackchan9345@gmail.com
Ning Ding: ningding.cs@gmail.com