Hardware Resource Needed for RL

Last updated: 06/25/2025.

由于强化学习(RL)相比常规训练需要更多的资源,在实际训练前确定成功运行所需资源量相对困难。为让更多人在处理不同模型和任务时有资源选择的参考依据,本节主要介绍基于我们进行的实验得到的硬件环境要求。

然而,由于人员和设备资源的限制,我们也希望开源社区能提供更多贡献。在提交 PR 时,需要提供一个脚本添加到 example/tuning 脚本中。

我们需要两种类型的脚本:一种是能在 最小资源(min) 下运行的配置,另一种是使用 推荐资源(recommended) 运行的配置。对于前者,可以理解为应用所有内存优化技术(例如 offload、gradient checkpointing)后仍能运行的脚本;对于后者,可以理解为尽可能避免增加时间开销的操作(追求最佳吞吐量)而能运行的脚本。

定义脚本名称时,请遵循以下格式:[model]_[task]_[gpunums]_[device]_[train]_[infer].sh。这将有效地提高脚本的可识别性。你可以将脚本放在 examples/tuning/ 目录下。

如果你碰巧有已经测试过的配置,我们欢迎你提交 PR,并附上 Wandb 或其他可验证的证据截图。


0.5B ~~~

标签

模型

任务

资源

最大批次

训练

推理

链接

贡献者

MIN

Qwen2.5-0.5B

GRPO-LoRA

1*H100

116

fsdp

vllm0.8.3

qwen2-0.5b_grpo-lora_1_h100_fsdp_vllm.sh

SimonHuang

1.5B ~~~

标签

模型

任务

资源

最大批次

训练

推理

链接

贡献者

MIN

Qwen2.5-1.5B

GRPO-LoRA

1*H100

128

fsdp

vllm0.8.3

qwen2-1.5b_grpo-lora_1_h100_fsdp_vllm.sh

SimonHuang

3B

标签

模型

任务

资源

最大批次

训练

推理

链接

贡献者

MIN

Qwen2.5-3B

GRPO-LoRA

1*H100

62

fsdp

vllm0.8.3

qwen2-3b_grpo-lora_1_h100_fsdp_vllm.sh

SimonHuang

7B

标签

模型

任务

资源

最大批次

训练

推理

链接

贡献者

MIN

Qwen2-7B

GRPO

2*H800

fsdp

vllm0.8.2

qwen2-7b_grpo_2_h800_fsdp_vllm

Xiangyongan

MIN

Qwen2.5-7B

GRPO-LoRA

1*H100

16

fsdp

vllm0.8.3

qwen2-7b_grpo-lora_1_h100_fsdp_vllm.sh

SimonHuang

14B

标签

模型

任务

资源

最大批次

训练

推理

链接

贡献者

MIN

Qwen2-14B

GRPO

4*H800

fsdp

vllm0.8.2

qwen2-14b_grpo_4_h800_fsdp_vllm

Xiangyongan

MIN

Qwen2.5-14B

GRPO-LoRA

2*H100

116

fsdp

vllm0.8.3

qwen2-14b_grpo-lora_2_h100_fsdp_vllm.sh

SimonHuang

32B

标签

模型

任务

资源

最大批次

训练

推理

链接

贡献者

MIN

Qwen2-32B

GRPO

8*H20

megatron

vllm0.8.2

qwen2-32b_grpo_8_h20_megatron_vllm

Xiangyongan

MIN

Qwen2.5-32B

GRPO-LoRA

4*H100

180

fsdp

vllm0.8.3

qwen2-32b_grpo-lora_4_h100_fsdp_vllm.sh

SimonHuang

70B

标签

模型

任务

资源

最大批次

训练

推理

链接

贡献者

MIN

Qwen2-70B

GRPO

32*H20

fsdp

vllm0.8.2

qwen2-70b_grpo_32_h20_fsdp_vllm

Xiangyongan

MIN

Qwen2-70B

GRPO

32*H800

fsdp

vllm0.8.3

qwen2-70b_grpo_32_h800_fsdp_vllm

Xiangyongan

MIN

Qwen2.5-72B

GRPO-LoRA

8*H100

176

fsdp

vllm0.8.3

qwen2-72b_grpo-lora_8_h100_fsdp_vllm.sh

SimonHuang

405B

671B