Hardware Resource Needed for RL =============================== Last updated: 06/25/2025. 由于强化学习(RL)相比常规训练需要更多的资源,在实际训练前确定成功运行所需资源量相对困难。为让更多人在处理不同模型和任务时有资源选择的参考依据,本节主要介绍基于我们进行的实验得到的硬件环境要求。 然而,由于人员和设备资源的限制,我们也希望开源社区能提供更多贡献。在提交 PR 时,需要提供一个脚本添加到 example/tuning 脚本中。 我们需要两种类型的脚本:一种是能在 **最小资源(min)** 下运行的配置,另一种是使用 **推荐资源(recommended)** 运行的配置。对于前者,可以理解为应用所有内存优化技术(例如 offload、gradient checkpointing)后仍能运行的脚本;对于后者,可以理解为尽可能避免增加时间开销的操作(追求最佳吞吐量)而能运行的脚本。 定义脚本名称时,请遵循以下格式:``[model]_[task]_[gpunums]_[device]_[train]_[infer].sh``。这将有效地提高脚本的可识别性。你可以将脚本放在 ``examples/tuning/`` 目录下。 如果你碰巧有已经测试过的配置,我们欢迎你提交 PR,并附上 Wandb 或其他可验证的证据截图。 ---------------------------------------- 0.5B ~~~ .. list-table:: :widths: auto :header-rows: 1 * - 标签 - 模型 - 任务 - 资源 - 最大批次 - 训练 - 推理 - 链接 - 贡献者 * - MIN - Qwen2.5-0.5B - GRPO-LoRA - 1*H100 - 116 - fsdp - vllm0.8.3 - `qwen2-0.5b_grpo-lora_1_h100_fsdp_vllm.sh `_ - `SimonHuang `_ 1.5B ~~~ .. list-table:: :widths: auto :header-rows: 1 * - 标签 - 模型 - 任务 - 资源 - 最大批次 - 训练 - 推理 - 链接 - 贡献者 * - MIN - Qwen2.5-1.5B - GRPO-LoRA - 1*H100 - 128 - fsdp - vllm0.8.3 - `qwen2-1.5b_grpo-lora_1_h100_fsdp_vllm.sh `_ - `SimonHuang `_ 3B ~~~ .. list-table:: :widths: auto :header-rows: 1 * - 标签 - 模型 - 任务 - 资源 - 最大批次 - 训练 - 推理 - 链接 - 贡献者 * - MIN - Qwen2.5-3B - GRPO-LoRA - 1*H100 - 62 - fsdp - vllm0.8.3 - `qwen2-3b_grpo-lora_1_h100_fsdp_vllm.sh `_ - `SimonHuang `_ 7B ~~~ .. list-table:: :widths: auto :header-rows: 1 * - 标签 - 模型 - 任务 - 资源 - 最大批次 - 训练 - 推理 - 链接 - 贡献者 * - MIN - Qwen2-7B - GRPO - 2*H800 - \ - fsdp - vllm0.8.2 - `qwen2-7b_grpo_2_h800_fsdp_vllm `_ - `Xiangyongan `_ * - MIN - Qwen2.5-7B - GRPO-LoRA - 1*H100 - 16 - fsdp - vllm0.8.3 - `qwen2-7b_grpo-lora_1_h100_fsdp_vllm.sh `_ - `SimonHuang `_ 14B ~~~ .. list-table:: :widths: auto :header-rows: 1 * - 标签 - 模型 - 任务 - 资源 - 最大批次 - 训练 - 推理 - 链接 - 贡献者 * - MIN - Qwen2-14B - GRPO - 4*H800 - \ - fsdp - vllm0.8.2 - `qwen2-14b_grpo_4_h800_fsdp_vllm `_ - `Xiangyongan `_ * - MIN - Qwen2.5-14B - GRPO-LoRA - 2*H100 - 116 - fsdp - vllm0.8.3 - `qwen2-14b_grpo-lora_2_h100_fsdp_vllm.sh `_ - `SimonHuang `_ 32B ~~~ .. list-table:: :widths: auto :header-rows: 1 * - 标签 - 模型 - 任务 - 资源 - 最大批次 - 训练 - 推理 - 链接 - 贡献者 * - MIN - Qwen2-32B - GRPO - 8*H20 - \ - megatron - vllm0.8.2 - `qwen2-32b_grpo_8_h20_megatron_vllm `_ - `Xiangyongan `_ * - MIN - Qwen2.5-32B - GRPO-LoRA - 4*H100 - 180 - fsdp - vllm0.8.3 - `qwen2-32b_grpo-lora_4_h100_fsdp_vllm.sh `_ - `SimonHuang `_ 70B ~~~ .. list-table:: :widths: auto :header-rows: 1 * - 标签 - 模型 - 任务 - 资源 - 最大批次 - 训练 - 推理 - 链接 - 贡献者 * - MIN - Qwen2-70B - GRPO - 32*H20 - \ - fsdp - vllm0.8.2 - `qwen2-70b_grpo_32_h20_fsdp_vllm `_ - `Xiangyongan `_ * - MIN - Qwen2-70B - GRPO - 32*H800 - \ - fsdp - vllm0.8.3 - `qwen2-70b_grpo_32_h800_fsdp_vllm `_ - `Xiangyongan `_ * - MIN - Qwen2.5-72B - GRPO-LoRA - 8*H100 - 176 - fsdp - vllm0.8.3 - `qwen2-72b_grpo-lora_8_h100_fsdp_vllm.sh `_ - `SimonHuang `_ 405B ~~~~ .. table:: :widths: auto ====== ====== ====== ======== ======== ====== ====== ====== 标签 模型 任务 资源 最大批次 训练 推理 链接 ====== ====== ====== ======== ======== ====== ====== ====== \ \ \ \ \ \ \ \ ====== ====== ====== ======== ======== ====== ====== ====== 671B ~~~~ .. table:: :widths: auto ====== ====== ====== ======== ======== ====== ====== ====== 标签 模型 任务 资源 最大批次 训练 推理 链接 ====== ====== ====== ======== ======== ====== ====== ====== \ \ \ \ \ \ \ \ ====== ====== ====== ======== ======== ====== ====== ======