强化学习训练框架
RL Training Framework
为LLM/VLM Agent提供基于策略梯度的强化学习训练管道,支持多种优势估计和奖励塑形
子问题
1.优势估计算法选择
2.KL散度控制
3.奖励函数设计
4.多轮rollout生成
5.多轮rollout中用户轮token的损失掩码(State Masking)
6.多GPU推理时batch对齐与dummy填充
7.混合奖励函数的多维度组合权重设计
各项目的解法1 solutions
Signals
横向对比
| 维度 | VRAG-RL |
|---|---|
| 优势估计 | 五种算法统一接口(GAE/GRPO/REINFORCE++/ReMax/RLOO),枚举类分发 |
| KL散度控制 | AdaptiveKLController 比例误差控制 + clip[-0.2,0.2] + 四种KL计算方式 |
| 奖励函数设计 | 三维混合奖励: 0.7×LLM-Judge + 0.1×ANLS + 0.2×NDCG |
| 多轮rollout生成 | LLMGenerationManager 多轮search/answer/bbox环境交互循环 |
| 分布式训练后端 | Ray ResourcePoolManager + FSDP/Megatron双后端 + Actor-Rollout共置 |
| 状态掩码 | 正则匹配user轮token位置,loss_mask排除非assistant生成内容 |
| GPU对齐策略 | dummy序列填充至GPU数整除,推理后裁剪 |
最佳实践
1.支持多种优势估计器(GAE/GRPO/RLOO)以适配不同场景
2.用枚举类+统一调度函数管理多种优势估计算法,避免硬编码
3.自适应KL控制器用clip限制单步更新幅度防止训练崩溃
4.Agent rollout中对无效动作返回错误提示而非终止,保持训练稳定