快速入门
编程指南
verl.single_controller
数据准备
配置
PPO 示例
算法
PPO 训练器和 Worker
性能调优指南
添加新模型
高级功能
硬件支持
API 参考
常见问题
开发说明
上次更新:05/27/2025(API 文档字符串是自动生成的)。
单控制器提供了一个统一的接口,用于管理分布式工作者(使用 Ray 或其他后端),并跨这些工作者执行函数。它简化了任务分派和结果收集的过程,特别是处理数据并行或模型并行时。