Search — verl documentation

verl

快速入门

Installation
Quickstart: PPO training on GSM8K dataset
多节点训练
Ray 调试教程
更多资源
Agentic RL 训练

编程指南

HybridFlow 编程指南
The Design of verl.single_controller

数据准备

Prepare Data for Post-Training
实现奖励函数以供数据集使用

配置

ppo_trainer.yaml 用于 RL FSDP 后端
evaluation.yaml
sft_trainer.yaml 用于 SFT FSDP 后端

PPO 示例

PPO 示例架构
GSM8K 示例
多模态示例架构
SkyPilot 示例

算法

近端策略优化（PPO）
Group Relative Policy Optimization (GRPO)
教程：CollabLLM
Recipe: Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO)
Recipe: Self-Play Fine-Tuning (SPIN)
配方：自竞赛偏好优化 (SPPO)
配方：熵机制
基于最优奖励基线的策略内强化学习 (OPO)
算法基准
GPG：群体策略梯度
部署校正
verl 中推演修正方法的数学公式

PPO 训练器和 Worker

PPO Ray 训练器
PyTorch FSDP 后端
Megatron-LM Backend
SGLang 后端
Model Engine

性能调优指南

训练 DeepSeek 671b
Verl LLM 最佳实践 (DAPO + Qwen3-235B)
性能调优指南
升级至 vLLM >= 0.8
Hardware Resource Needed for RL
verl Profiler 系统
veril 中的 NVIDIA Nsight Systems 性能分析

添加新模型

使用 FSDP 后端添加模型
使用 Megatron-LM 后端添加模型

高级功能

使用检查点支持容错训练
RoPE 缩放配置覆盖
注意力实现覆盖
支持 LoRA 的 RL(HF) 算法
多轮展开支持
Interaction System for Multi-turn RL Training
Ray API 设计教程
Extend to other RL(HF) algorithms
Sandbox Fusion 使用示例
Trace Function Usage Instructions
RolloutSkip 函数使用文档
Recipe: 单步偏移策略异步训练器
Agent 循环
Reward Loop
Recipe: Fully Async Policy Trainer
TransferQueue 数据系统
使用 Prometheus 和 Grafana 监控 Rollout
verl 的 FP8 rollout

硬件支持

Getting started with AMD (ROCM Kernel)
verl AMD (ROCm 内核) 性能调优
昇腾快速开始
Align the Inference results of the verl and vLLM frameworks on Ascend devices(zh)
在昇腾设备上基于FSDP后端进行数据采集
Data collection based on FSDP backend on Ascend devices(基于昇腾设备的 FSDP 后端数据收集)
昇腾 Dockerfile 构建指南
Ascend Quickstart with SGLang Backend

API 参考

数据接口
单控制器接口
Trainer Interface
实用工具

常见问题

Frequently Asked Questions

开发说明

沙箱融合工具集成

verl

Search

© Copyright 2024 ByteDance Seed Foundation MLSys Team.

Built with Sphinx using a theme provided by Read the Docs.