快速入门
编程指南
verl.single_controller
数据准备
配置
PPO 示例
算法
PPO 训练器和 Worker
性能调优指南
添加新模型
高级功能
硬件支持
API 参考
常见问题
开发说明
最后更新:06/08/2025 (API 文档字符串为自动生成)。
训练器负责驱动训练循环。在引入新的训练范式时,鼓励创建新的训练器类。