verl

快速入门

  • Installation
  • Quickstart: PPO training on GSM8K dataset
  • 多节点训练
  • Ray 调试教程
  • 更多资源
  • Agentic RL 训练

编程指南

  • HybridFlow 编程指南
  • The Design of verl.single_controller

数据准备

  • Prepare Data for Post-Training
  • 实现奖励函数以供数据集使用

配置

  • ppo_trainer.yaml 用于 RL FSDP 后端
  • evaluation.yaml
  • sft_trainer.yaml 用于 SFT FSDP 后端

PPO 示例

  • PPO 示例架构
  • GSM8K 示例
  • 多模态示例架构
  • SkyPilot 示例

算法

  • 近端策略优化(PPO)
  • Group Relative Policy Optimization (GRPO)
  • 教程:CollabLLM
  • Recipe: Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO)
  • Recipe: Self-Play Fine-Tuning (SPIN)
  • 配方:自竞赛偏好优化 (SPPO)
  • 配方:熵机制
  • 基于最优奖励基线的策略内强化学习 (OPO)
  • 算法基准
  • GPG:群体策略梯度
  • 部署校正
  • verl 中推演修正方法的数学公式

PPO 训练器和 Worker

  • PPO Ray 训练器
  • PyTorch FSDP 后端
  • Megatron-LM Backend
  • SGLang 后端
  • Model Engine

性能调优指南

  • 训练 DeepSeek 671b
  • Verl LLM 最佳实践 (DAPO + Qwen3-235B)
  • 性能调优指南
  • 升级至 vLLM >= 0.8
  • Hardware Resource Needed for RL
  • verl Profiler 系统
  • veril 中的 NVIDIA Nsight Systems 性能分析

添加新模型

  • 使用 FSDP 后端添加模型
  • 使用 Megatron-LM 后端添加模型

高级功能

  • 使用检查点支持容错训练
  • RoPE 缩放配置覆盖
  • 注意力实现覆盖
  • 支持 LoRA 的 RL(HF) 算法
  • 多轮展开支持
  • Interaction System for Multi-turn RL Training
  • Ray API 设计教程
  • Extend to other RL(HF) algorithms
  • Sandbox Fusion 使用示例
  • Trace Function Usage Instructions
  • RolloutSkip 函数使用文档
  • Recipe: 单步偏移策略异步训练器
  • Agent 循环
  • Reward Loop
  • Recipe: Fully Async Policy Trainer
  • TransferQueue 数据系统
  • 使用 Prometheus 和 Grafana 监控 Rollout
  • verl 的 FP8 rollout

硬件支持

  • Getting started with AMD (ROCM Kernel)
  • verl AMD (ROCm 内核) 性能调优
  • 昇腾快速开始
  • Align the Inference results of the verl and vLLM frameworks on Ascend devices(zh)
  • 在昇腾设备上基于FSDP后端进行数据采集
  • Data collection based on FSDP backend on Ascend devices(基于昇腾设备的 FSDP 后端数据收集)
  • 昇腾 Dockerfile 构建指南
  • Ascend Quickstart with SGLang Backend

API 参考

  • 数据接口
  • 单控制器接口
  • Trainer Interface
  • 实用工具

常见问题

  • Frequently Asked Questions

开发说明

  • 沙箱融合工具集成
verl
  • Search


© Copyright 2024 ByteDance Seed Foundation MLSys Team.

Built with Sphinx using a theme provided by Read the Docs.