# 配方:熵机制 Last updated: 06/27/2025.
大型语言模型推理中强化学习的环境机制。 [![Paper](https://img.shields.io/badge/paper-A42C25?style=for-the-badge&logo=arxiv&logoColor=white)](https://arxiv.org/pdf/2505.22617) [![Github](https://img.shields.io/badge/PRIME-000000?style=for-the-badge&logo=github&logoColor=000&logoColor=white)](https://github.com/PRIME-RL/Entropy-Mechanism-of-RL) [![alphaXiv](https://img.shields.io/badge/discussion-A42C25?style=for-the-badge&logo=arxiv&logoColor=white&color=blue )](https://www.alphaxiv.org/abs/2505.22617) [![Twitter](https://img.shields.io/badge/Twitter-%23000000.svg?style=for-the-badge&logo=twitter&logoColor=white)](https://x.com/stingning/status/1928088554166505667) [![Twitter](https://img.shields.io/badge/Twitter-%23000000.svg?style=for-the-badge&logo=twitter&logoColor=white)](https://x.com/charlesfornlp/status/1928089451080585283) [![Twitter-ak](https://img.shields.io/badge/Twitter-%23000000.svg?style=for-the-badge&logo=twitter&logoColor=white)](https://x.com/_akhaliq/status/1928077929105268861)

🎉 新闻✨ 快速开始📖 介绍

🎈 引用🌻 致谢📬 联系方式📈 星标历史

## 🎉新闻 - **[2025/05/29]** 🎉 在 [Huggingface Daily Papers](https://huggingface.co/papers?date=2025-05-29) 上排名当天第一。 - **[2025/05/29]** 在 arXiv 上发布了我们的论文。详情请见 [这里](https://arxiv.org/pdf/2505.22617)。我们深入探讨了大型语言模型(LLMs)中强化学习(RL)的熵机制,并提出了两种简单但有效的策略来缓解熵崩溃问题(熵崩溃指的是模型在训练过程中策略熵急剧下降,导致过度自信和性能饱和)。 ## ✨快速开始 准备好训练数据后,对于在单节点上训练 Qwen2.5-7B,以 KL-Cov 方法为例,你可以简单运行: ``` cd verl conda activate your_env bash recipe/dapo/7b_kl_cov.sh ``` 而对于在多节点上训练 Qwen2.5-32B,你可以运行以下命令: ``` cd verl conda activate your_env bash recipe/dapo/32b_kl_cov.sh ``` ## 📖介绍
issue
本文探讨了在为大型语言模型(LLMs)扩展强化学习(RL)时出现的熵崩溃问题,即策略熵在训练过程中急剧下降,导致模型过度自信和性能停滞。我们通过实验建立了熵($H$)与性能($R$)之间的关系:$R=−aexp(H)+b$,表明性能受到熵耗尽的瓶颈限制(这意味着如果熵不能被有效维持,模型的学习效果就会受阻)。
issue
从理论上讲,我们发现熵的变化是由动作概率与 logit 更新之间的协方差驱动的,这种协方差与策略梯度方法中的优势相关。高概率、高优势的动作会降低熵,而罕见但高优势的动作则会增加熵。实验中,协方差项始终为正,这解释了熵的单调下降。为缓解这一问题,我们提出了 Clip-Cov 和 KL-Cov 方法,这些方法通过限制高协方差 token 的更新,来有效防止熵崩溃并提升性能。 ## 📃评估
issue
我们的方法能够在整个训练过程中维持相当高的熵水平。例如,当基准方法的熵达到平稳期且无法进一步耗尽时,KL-Cov 方法仍能维持超过基准 10 倍的熵水平。同时,策略模型的响应长度稳步增加,在测试集上的性能始终优于基准 outperformed。这表明我们的模型在训练期间能够更自由地探索,通过强化学习学到更好的策略。 | **方法** | **AIME24** | **AIME25** | **AMC** | **MATH-500** | **OMNI-MATH** | **OlympiadBench** | **Minerva** | **平均** | | ----------------- | ---------: | ---------: | -------: | -----------: | ------------: | ----------------: | ----------: | -------: | | *Qwen2.5-7B* | | | | | | | | | | GRPO | 21.2 | 9.6 | 58.7 | 78.8 | 27.9 | 40.7 | 36.7 | 38.6 | | w. Clip-higher | 18.1 | 11.5 | 56.6 | 79.2 | 29.8 | 43.3 | 40.4 | 38.8 | | w. **`CLIP-Cov`** | 22.1 | **15.8** | 58.2 | 80.4 | **30.5** | **44.1** | **41.1** | 40.4 | | w. **`KL-Cov`** | **22.6** | 12.9 | **61.4** | **80.8** | 29.1 | 42.6 | 38.2 | **40.6** | | *Qwen2.5-32B* | | | | | | | | | | GRPO | 21.8 | 16.2 | 69.7 | 84.2 | 35.2 | 43.6 | 45.5 | 45.8 | | w. Clip-higher | 35.6 | 22.3 | 69.5 | 77.2 | 35.1 | 42.5 | 43.0 | 47.2 | | w. **`CLIP-Cov`** | 32.3 | 22.7 | 67.2 | **87.0** | **42.0** | **57.2** | 46.0 | 50.3 | | w. **`KL-Cov`** | **36.8** | **30.8** | **74.5** | 84.6 | 39.1 | 49.0 | **46.3** | **52.2** | 我们的两种方法在所有基准测试中都实现了非平凡的改进。与 GRPO 相比,我们的方法在 7B 模型上平均提升了 2.0%,在 32B 模型上提升了 6.4%。此外,我们观察到,在更大的 Qwen2.5-32B 模型上,我们的方法获得了更显著的收益。具体来说,在最具挑战性的基准 AIME24 和 AIME25 上,我们的方法分别实现了 15.0% 和 14.6% 的提升。 ## 🎈引用 如果您发现本文或这个仓库有帮助,请引用我们。 ```bibtex @article{cui2025entropy, title={The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models}, author={Cui, Ganqu and Zhang, Yuchen and Chen, Jiacheng and Yuan, Lifan and Wang, Zhi and Zuo, Yuxin and Li, Haozhan and Fan, Yuchen and Chen, Huayu and Chen, Weize and others}, journal={arXiv preprint arXiv:2505.22617}, year={2025} } ``` ## 🌻致谢 我们基于 [verl](https://github.com/volcengine/verl) 实现了强化学习算法,并使用 [vLLM](https://github.com/vllm-project/vllm) 进行推理。我们的模型主要在 [Qwen2.5 系列](https://github.com/QwenLM/Qwen2.5) 上进行训练。训练数据来自于 [DAPO-MATH](https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k)。感谢他们的重要贡献! ## 📬 联系方式 如果您有疑问、讨论或合作机会,请随时联系: - Ganqu Cui: cuiganqu@pjlab.org.cn - Yuchen Zhang: yuchen.zhang2003@gmail.com - Jiacheng Chen: jackchan9345@gmail.com - Ning Ding: ningding.cs@gmail.com