大型语言模型推理中强化学习的环境机制。
[](https://arxiv.org/pdf/2505.22617) [](https://github.com/PRIME-RL/Entropy-Mechanism-of-RL) [](https://www.alphaxiv.org/abs/2505.22617) [](https://x.com/stingning/status/1928088554166505667) [](https://x.com/charlesfornlp/status/1928089451080585283) [](https://x.com/_akhaliq/status/1928077929105268861)
## 🎉新闻
- **[2025/05/29]** 🎉 在 [Huggingface Daily Papers](https://huggingface.co/papers?date=2025-05-29) 上排名当天第一。
- **[2025/05/29]** 在 arXiv 上发布了我们的论文。详情请见 [这里](https://arxiv.org/pdf/2505.22617)。我们深入探讨了大型语言模型(LLMs)中强化学习(RL)的熵机制,并提出了两种简单但有效的策略来缓解熵崩溃问题(熵崩溃指的是模型在训练过程中策略熵急剧下降,导致过度自信和性能饱和)。
## ✨快速开始
准备好训练数据后,对于在单节点上训练 Qwen2.5-7B,以 KL-Cov 方法为例,你可以简单运行:
```
cd verl
conda activate your_env
bash recipe/dapo/7b_kl_cov.sh
```
而对于在多节点上训练 Qwen2.5-32B,你可以运行以下命令:
```
cd verl
conda activate your_env
bash recipe/dapo/32b_kl_cov.sh
```
## 📖介绍