问题域/PD-574

Agent强化学习训练

Agentic RL Training

针对agent应用的强化学习训练框架,支持workflow定义、自动评估和模型优化

子问题

1.Workflow定义与执行

2.Judge评估函数设计

3.训练数据集管理

4.算法配置与调优

各项目的解法1 solutions

Signals

横向对比

维度AgentScope
Workflow 抽象类型化协议 WorkflowType,强制异步,支持直接 reward 或 response
Judge 设计JudgeType 协议,支持规则 Judge 和 LLM-as-a-Judge
数据集管理HuggingFace datasets 集成,支持流式加载和预览
算法支持默认 multi_step_grpo,支持 SFT/PPO/GRPO 等多种算法
外部库集成Trinity-RFT 适配层,自动转换配置格式
低资源训练Tinker LoRA 微调,支持远程服务和本地部署
分布式训练Ray 集成,支持阿里云 PAI-DLC 多节点训练
可观测性TensorBoard/WandB/MLflow/SwanLab 多监控后端
推理增强Qwen3 thinking 模式,DeepSeek-R1 推理解析器

最佳实践

1.使用LLM-as-a-judge自动评估

2.支持多种RL算法配置

3.集成外部训练库(Trinity-RFT)