Hardware Resource Needed for RL
Last updated: 06/25/2025.
由于强化学习(RL)相比常规训练需要更多的资源,在实际训练前确定成功运行所需资源量相对困难。为让更多人在处理不同模型和任务时有资源选择的参考依据,本节主要介绍基于我们进行的实验得到的硬件环境要求。
然而,由于人员和设备资源的限制,我们也希望开源社区能提供更多贡献。在提交 PR 时,需要提供一个脚本添加到 example/tuning 脚本中。
我们需要两种类型的脚本:一种是能在 最小资源(min) 下运行的配置,另一种是使用 推荐资源(recommended) 运行的配置。对于前者,可以理解为应用所有内存优化技术(例如 offload、gradient checkpointing)后仍能运行的脚本;对于后者,可以理解为尽可能避免增加时间开销的操作(追求最佳吞吐量)而能运行的脚本。
定义脚本名称时,请遵循以下格式:[model]_[task]_[gpunums]_[device]_[train]_[infer].sh。这将有效地提高脚本的可识别性。你可以将脚本放在 examples/tuning/ 目录下。
如果你碰巧有已经测试过的配置,我们欢迎你提交 PR,并附上 Wandb 或其他可验证的证据截图。
0.5B ~~~
标签 |
模型 |
任务 |
资源 |
最大批次 |
训练 |
推理 |
链接 |
贡献者 |
|---|---|---|---|---|---|---|---|---|
MIN |
Qwen2.5-0.5B |
GRPO-LoRA |
1*H100 |
116 |
fsdp |
vllm0.8.3 |
1.5B ~~~
标签 |
模型 |
任务 |
资源 |
最大批次 |
训练 |
推理 |
链接 |
贡献者 |
|---|---|---|---|---|---|---|---|---|
MIN |
Qwen2.5-1.5B |
GRPO-LoRA |
1*H100 |
128 |
fsdp |
vllm0.8.3 |
3B
标签 |
模型 |
任务 |
资源 |
最大批次 |
训练 |
推理 |
链接 |
贡献者 |
|---|---|---|---|---|---|---|---|---|
MIN |
Qwen2.5-3B |
GRPO-LoRA |
1*H100 |
62 |
fsdp |
vllm0.8.3 |
7B
标签 |
模型 |
任务 |
资源 |
最大批次 |
训练 |
推理 |
链接 |
贡献者 |
|---|---|---|---|---|---|---|---|---|
MIN |
Qwen2-7B |
GRPO |
2*H800 |
fsdp |
vllm0.8.2 |
|||
MIN |
Qwen2.5-7B |
GRPO-LoRA |
1*H100 |
16 |
fsdp |
vllm0.8.3 |
14B
标签 |
模型 |
任务 |
资源 |
最大批次 |
训练 |
推理 |
链接 |
贡献者 |
|---|---|---|---|---|---|---|---|---|
MIN |
Qwen2-14B |
GRPO |
4*H800 |
fsdp |
vllm0.8.2 |
|||
MIN |
Qwen2.5-14B |
GRPO-LoRA |
2*H100 |
116 |
fsdp |
vllm0.8.3 |
32B
标签 |
模型 |
任务 |
资源 |
最大批次 |
训练 |
推理 |
链接 |
贡献者 |
|---|---|---|---|---|---|---|---|---|
MIN |
Qwen2-32B |
GRPO |
8*H20 |
megatron |
vllm0.8.2 |
|||
MIN |
Qwen2.5-32B |
GRPO-LoRA |
4*H100 |
180 |
fsdp |
vllm0.8.3 |
70B
标签 |
模型 |
任务 |
资源 |
最大批次 |
训练 |
推理 |
链接 |
贡献者 |
|---|---|---|---|---|---|---|---|---|
MIN |
Qwen2-70B |
GRPO |
32*H20 |
fsdp |
vllm0.8.2 |
|||
MIN |
Qwen2-70B |
GRPO |
32*H800 |
fsdp |
vllm0.8.3 |
|||
MIN |
Qwen2.5-72B |
GRPO-LoRA |
8*H100 |
176 |
fsdp |
vllm0.8.3 |