Agent强化学习训练
Agentic RL Training
针对agent应用的强化学习训练框架,支持workflow定义、自动评估和模型优化
子问题
1.Workflow定义与执行
2.Judge评估函数设计
3.训练数据集管理
4.算法配置与调优
各项目的解法1 solutions
Signals
横向对比
| 维度 | AgentScope |
|---|---|
| Workflow 抽象 | 类型化协议 WorkflowType,强制异步,支持直接 reward 或 response |
| Judge 设计 | JudgeType 协议,支持规则 Judge 和 LLM-as-a-Judge |
| 数据集管理 | HuggingFace datasets 集成,支持流式加载和预览 |
| 算法支持 | 默认 multi_step_grpo,支持 SFT/PPO/GRPO 等多种算法 |
| 外部库集成 | Trinity-RFT 适配层,自动转换配置格式 |
| 低资源训练 | Tinker LoRA 微调,支持远程服务和本地部署 |
| 分布式训练 | Ray 集成,支持阿里云 PAI-DLC 多节点训练 |
| 可观测性 | TensorBoard/WandB/MLflow/SwanLab 多监控后端 |
| 推理增强 | Qwen3 thinking 模式,DeepSeek-R1 推理解析器 |
最佳实践
1.使用LLM-as-a-judge自动评估
2.支持多种RL算法配置
3.集成外部训练库(Trinity-RFT)