Hardware Resource Needed for RL

Last updated: 06/25/2025.

由于强化学习（RL）相比常规训练需要更多的资源，在实际训练前确定成功运行所需资源量相对困难。为让更多人在处理不同模型和任务时有资源选择的参考依据，本节主要介绍基于我们进行的实验得到的硬件环境要求。

然而，由于人员和设备资源的限制，我们也希望开源社区能提供更多贡献。在提交 PR 时，需要提供一个脚本添加到 example/tuning 脚本中。

我们需要两种类型的脚本：一种是能在 最小资源（min） 下运行的配置，另一种是使用 推荐资源（recommended） 运行的配置。对于前者，可以理解为应用所有内存优化技术（例如 offload、gradient checkpointing）后仍能运行的脚本；对于后者，可以理解为尽可能避免增加时间开销的操作（追求最佳吞吐量）而能运行的脚本。

定义脚本名称时，请遵循以下格式：[model]_[task]_[gpunums]_[device]_[train]_[infer].sh。这将有效地提高脚本的可识别性。你可以将脚本放在 examples/tuning/ 目录下。

如果你碰巧有已经测试过的配置，我们欢迎你提交 PR，并附上 Wandb 或其他可验证的证据截图。

0.5B ~~~

标签	模型	任务	资源	最大批次	训练	推理	链接	贡献者
MIN	Qwen2.5-0.5B	GRPO-LoRA	1*H100	116	fsdp	vllm0.8.3	qwen2-0.5b_grpo-lora_1_h100_fsdp_vllm.sh	SimonHuang

1.5B ~~~

标签	模型	任务	资源	最大批次	训练	推理	链接	贡献者
MIN	Qwen2.5-1.5B	GRPO-LoRA	1*H100	128	fsdp	vllm0.8.3	qwen2-1.5b_grpo-lora_1_h100_fsdp_vllm.sh	SimonHuang

3B

标签	模型	任务	资源	最大批次	训练	推理	链接	贡献者
MIN	Qwen2.5-3B	GRPO-LoRA	1*H100	62	fsdp	vllm0.8.3	qwen2-3b_grpo-lora_1_h100_fsdp_vllm.sh	SimonHuang

7B

标签	模型	任务	资源	最大批次	训练	推理	链接	贡献者
MIN	Qwen2-7B	GRPO	2*H800		fsdp	vllm0.8.2	qwen2-7b_grpo_2_h800_fsdp_vllm	Xiangyongan
MIN	Qwen2.5-7B	GRPO-LoRA	1*H100	16	fsdp	vllm0.8.3	qwen2-7b_grpo-lora_1_h100_fsdp_vllm.sh	SimonHuang

14B

标签	模型	任务	资源	最大批次	训练	推理	链接	贡献者
MIN	Qwen2-14B	GRPO	4*H800		fsdp	vllm0.8.2	qwen2-14b_grpo_4_h800_fsdp_vllm	Xiangyongan
MIN	Qwen2.5-14B	GRPO-LoRA	2*H100	116	fsdp	vllm0.8.3	qwen2-14b_grpo-lora_2_h100_fsdp_vllm.sh	SimonHuang

32B

标签	模型	任务	资源	最大批次	训练	推理	链接	贡献者
MIN	Qwen2-32B	GRPO	8*H20		megatron	vllm0.8.2	qwen2-32b_grpo_8_h20_megatron_vllm	Xiangyongan
MIN	Qwen2.5-32B	GRPO-LoRA	4*H100	180	fsdp	vllm0.8.3	qwen2-32b_grpo-lora_4_h100_fsdp_vllm.sh	SimonHuang

70B

标签	模型	任务	资源	最大批次	训练	推理	链接	贡献者
MIN	Qwen2-70B	GRPO	32*H20		fsdp	vllm0.8.2	qwen2-70b_grpo_32_h20_fsdp_vllm	Xiangyongan
MIN	Qwen2-70B	GRPO	32*H800		fsdp	vllm0.8.3	qwen2-70b_grpo_32_h800_fsdp_vllm	Xiangyongan
MIN	Qwen2.5-72B	GRPO-LoRA	8*H100	176	fsdp	vllm0.8.3	qwen2-72b_grpo-lora_8_h100_fsdp_vllm.sh	SimonHuang

Hardware Resource Needed for RL

3B

7B

14B

32B

70B

405B

671B