配方：熵机制

Last updated: 06/27/2025.

大型语言模型推理中强化学习的环境机制。

🎉新闻

[2025/05/29] 🎉 在 Huggingface Daily Papers 上排名当天第一。
[2025/05/29] 在 arXiv 上发布了我们的论文。详情请见这里。我们深入探讨了大型语言模型（LLMs）中强化学习（RL）的熵机制，并提出了两种简单但有效的策略来缓解熵崩溃问题（熵崩溃指的是模型在训练过程中策略熵急剧下降，导致过度自信和性能饱和）。

✨快速开始

准备好训练数据后，对于在单节点上训练 Qwen2.5-7B，以 KL-Cov 方法为例，你可以简单运行：

cd verl
conda activate your_env
bash recipe/dapo/7b_kl_cov.sh

而对于在多节点上训练 Qwen2.5-32B，你可以运行以下命令：

cd verl
conda activate your_env
bash recipe/dapo/32b_kl_cov.sh

📖介绍

本文探讨了在为大型语言模型（LLMs）扩展强化学习（RL）时出现的熵崩溃问题，即策略熵在训练过程中急剧下降，导致模型过度自信和性能停滞。我们通过实验建立了熵（\(H\)）与性能（\(R\)）之间的关系：\(R=−aexp(H)+b\)，表明性能受到熵耗尽的瓶颈限制（这意味着如果熵不能被有效维持，模型的学习效果就会受阻）。

从理论上讲，我们发现熵的变化是由动作概率与 logit 更新之间的协方差驱动的，这种协方差与策略梯度方法中的优势相关。高概率、高优势的动作会降低熵，而罕见但高优势的动作则会增加熵。实验中，协方差项始终为正，这解释了熵的单调下降。为缓解这一问题，我们提出了 Clip-Cov 和 KL-Cov 方法，这些方法通过限制高协方差 token 的更新，来有效防止熵崩溃并提升性能。

📃评估

我们的方法能够在整个训练过程中维持相当高的熵水平。例如，当基准方法的熵达到平稳期且无法进一步耗尽时，KL-Cov 方法仍能维持超过基准 10 倍的熵水平。同时，策略模型的响应长度稳步增加，在测试集上的性能始终优于基准 outperformed。这表明我们的模型在训练期间能够更自由地探索，通过强化学习学到更好的策略。

方法	AIME24	AIME25	AMC	MATH-500	OMNI-MATH	OlympiadBench	Minerva	平均
Qwen2.5-7B
GRPO	21.2	9.6	58.7	78.8	27.9	40.7	36.7	38.6
w. Clip-higher	18.1	11.5	56.6	79.2	29.8	43.3	40.4	38.8
w. `CLIP-Cov`	22.1	15.8	58.2	80.4	30.5	44.1	41.1	40.4
w. `KL-Cov`	22.6	12.9	61.4	80.8	29.1	42.6	38.2	40.6
Qwen2.5-32B
GRPO	21.8	16.2	69.7	84.2	35.2	43.6	45.5	45.8
w. Clip-higher	35.6	22.3	69.5	77.2	35.1	42.5	43.0	47.2
w. `CLIP-Cov`	32.3	22.7	67.2	87.0	42.0	57.2	46.0	50.3
w. `KL-Cov`	36.8	30.8	74.5	84.6	39.1	49.0	46.3	52.2

我们的两种方法在所有基准测试中都实现了非平凡的改进。与 GRPO 相比，我们的方法在 7B 模型上平均提升了 2.0%，在 32B 模型上提升了 6.4%。此外，我们观察到，在更大的 Qwen2.5-32B 模型上，我们的方法获得了更显著的收益。具体来说，在最具挑战性的基准 AIME24 和 AIME25 上，我们的方法分别实现了 15.0% 和 14.6% 的提升。

🎈引用

如果您发现本文或这个仓库有帮助，请引用我们。

@article{cui2025entropy,
  title={The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models},
  author={Cui, Ganqu and Zhang, Yuchen and Chen, Jiacheng and Yuan, Lifan and Wang, Zhi and Zuo, Yuxin and Li, Haozhan and Fan, Yuchen and Chen, Huayu and Chen, Weize and others},
  journal={arXiv preprint arXiv:2505.22617},
  year={2025}
}

🌻致谢

我们基于 verl 实现了强化学习算法，并使用 vLLM 进行推理。我们的模型主要在 Qwen2.5 系列上进行训练。训练数据来自于 DAPO-MATH。感谢他们的重要贡献！

📬 联系方式

如果您有疑问、讨论或合作机会，请随时联系：

Ganqu Cui: cuiganqu@pjlab.org.cn
Yuchen Zhang: yuchen.zhang2003@gmail.com
Jiacheng Chen: jackchan9345@gmail.com
Ning Ding: ningding.cs@gmail.com