算法基准
最后更新时间:06/18/2025。
数学相关数据集
GSM8k
假设 GSM8k/math 数据集已通过以下预处理:
python3 examples/data_preprocess/*.py
请参考下方表格以从不同预训练检查点重现 RL 训练。下面是 GSM8k 数据集上的性能表现(若未特别注明)。更多全面的基准测试结果可在 recipe 文件夹中找到。
硬件 |
模型 |
方法 |
测试分数 |
详情 |
|---|---|---|---|---|
NVIDIA GPU |
google/gemma-2-2b-it |
hf checkpoint |
23.9 |
|
NVIDIA GPU |
google/gemma-2-2b-it |
SFT |
52.06 |
|
NVIDIA GPU |
google/gemma-2-2b-it |
SFT + PPO |
64.02 |
|
NVIDIA GPU |
Qwen/Qwen2.5-0.5B-Instruct |
hf checkpoint |
49.6 |
|
NVIDIA GPU |
Qwen/Qwen2.5-0.5B-Instruct |
PPO |
56.7 |
|
NVIDIA GPU |
Qwen/Qwen2.5-0.5B-Instruct |
PRIME |
58.7 |
|
NVIDIA GPU |
Qwen/Qwen2.5-0.5B-Instruct |
GRPO-LoRA |
54.3 |
|
NVIDIA GPU |
Qwen/Qwen2.5-1.5B-Instruct |
GRPO-LoRA |
77.9 |
|
NVIDIA GPU |
Qwen/Qwen2.5-3B-Instruct |
GRPO-LoRA |
86.1 |
|
NVIDIA GPU |
deepseek-ai/deepseek-llm-7b-chat |
PPO (Megatron) |
69.5 [1] |
|
NVIDIA GPU |
Qwen/Qwen2-7B-Instruct |
GRPO |
89 |
|
NVIDIA GPU |
Qwen/Qwen2-7B-Instruct |
GRPO (FSDP2) |
89.8 |
|
NVIDIA GPU |
Qwen/Qwen2-7B-Instruct |
GRPO (Megatron) |
89.6 |
|
NVIDIA GPU |
Qwen/Qwen2.5-7B-Instruct |
ReMax |
97 |
|
NVIDIA GPU |
Qwen/Qwen2.5-7B-Instruct |
SPPO |
65.6 (MATH) |
|
NVIDIA GPU |
Qwen/Qwen2.5-7B-Instruct |
GRPO-LoRA |
93.4 |
|
NVIDIA GPU |
Mixtral-8x22B-Instruct-v0.1 |
Instruct model |
83.7 |
|
NVIDIA GPU |
Mixtral-8x22B-Instruct-v0.1 |
RLOO (Megatron) |
92.3 |
|
NVIDIA GPU |
Qwen/Qwen2.5-7B-Instruct |
SPIN |
92 |
|
NVIDIA GPU |
Qwen/Qwen2-7B-Instruct |
GPG |
88 |
|
NVIDIA GPU |
Qwen/Qwen2-7B-Instruct |
GPG (Megatron) |
88 |
|
NVIDIA GPU |
Qwen/Qwen2.5-VL-7B-Instruct |
GRPO (Megatron) |
65.4 (GEO3k) |
|
AMD MI300 |
deepseek-ai/deepseek-llm-7b-chat |
PPO |
70.5 [1] |
|
AMD MI300 |
deepseek-ai/deepseek-llm-7b-chat |
GRPO |
71.4 [1] |
|
NVIDIA GPU |
Qwen/Qwen2.5-14B-Instruct |
GRPO-LoRA |
94.6 |
|
NVIDIA GPU |
Qwen/Qwen2.5-32B-Instruct |
GRPO-LoRA |
95.8 |
|
NVIDIA GPU |
Qwen/Qwen2.5-72B-Instruct |
GRPO-LoRA |
96.0 |
DAPO math-17k
训练 DAPO math-17k 数据集:https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k
测试:AIME’24:https://huggingface.co/datasets/BytedTsinghua-SIA/AIME-2024
注意:
对于 Qwen/Qwen2.5-Math-7B,我们直接将 max_position_embeddings 修改为 32768,而未观察到性能下降,以此来训练更长的响应长度。
硬件 |
模型 |
方法 |
测试分数 |
详情 |
|---|---|---|---|---|
NVIDIA GPU |
Qwen/Qwen2.5-Math-7B (32k) |
DAPO |
36.3 |
|
NVIDIA GPU |
Qwen/Qwen2.5-7B-Instruct |
DAPO + Code Interpreter |
40.0 |
编程相关数据集
下面是 leetcode 上的结果(若未特别注明)。
硬件 |
模型 |
方法 |
测试分数 |
详情 |
|---|---|---|---|---|
NVIDIA GPU |
PRIME-RL/Eurus-2-7B-SFT |
PRIME |
36.1 |
注释
[1] 在评估期间,我们仅提取格式为 “####” 的答案。更灵活的答案提取、更长的响应长度以及更好的提示工程可能会导致更高的分数。
[2] 从 2025-05-30 开始,verl 0.3.x 版本将 actor_rollout_ref.actor.entropy_coeff 的默认值设置为 0.0,这与之前版本不同。