问题域/PD-357

强化学习训练框架

RL Training Framework

为LLM/VLM Agent提供基于策略梯度的强化学习训练管道，支持多种优势估计和奖励塑形

子问题

1.优势估计算法选择

2.KL散度控制

3.奖励函数设计

4.多轮rollout生成

5.多轮rollout中用户轮token的损失掩码(State Masking)

6.多GPU推理时batch对齐与dummy填充

7.混合奖励函数的多维度组合权重设计

各项目的解法1 solutions

Signals

横向对比

维度	VRAG-RL
优势估计	五种算法统一接口(GAE/GRPO/REINFORCE++/ReMax/RLOO)，枚举类分发
KL散度控制	AdaptiveKLController 比例误差控制 + clip[-0.2,0.2] + 四种KL计算方式
奖励函数设计	三维混合奖励: 0.7×LLM-Judge + 0.1×ANLS + 0.2×NDCG
多轮rollout生成	LLMGenerationManager 多轮search/answer/bbox环境交互循环
分布式训练后端	Ray ResourcePoolManager + FSDP/Megatron双后端 + Actor-Rollout共置
状态掩码	正则匹配user轮token位置，loss_mask排除非assistant生成内容
GPU对齐策略	dummy序列填充至GPU数整除，推理后裁剪

最佳实践

1.支持多种优势估计器(GAE/GRPO/RLOO)以适配不同场景

2.用枚举类+统一调度函数管理多种优势估计算法，避免硬编码

3.自适应KL控制器用clip限制单步更新幅度防止训练崩溃

4.Agent rollout中对无效动作返回错误提示而非终止，保持训练稳定