Agent强化学习训练

Agentic RL Training

针对agent应用的强化学习训练框架，支持workflow定义、自动评估和模型优化

子问题

1.Workflow定义与执行

2.Judge评估函数设计

3.训练数据集管理

4.算法配置与调优

Signals

维度	AgentScope
Workflow 抽象	类型化协议 WorkflowType，强制异步，支持直接 reward 或 response
Judge 设计	JudgeType 协议，支持规则 Judge 和 LLM-as-a-Judge
数据集管理	HuggingFace datasets 集成，支持流式加载和预览
算法支持	默认 multi_step_grpo，支持 SFT/PPO/GRPO 等多种算法
外部库集成	Trinity-RFT 适配层，自动转换配置格式
低资源训练	Tinker LoRA 微调，支持远程服务和本地部署
分布式训练	Ray 集成，支持阿里云 PAI-DLC 多节点训练
可观测性	TensorBoard/WandB/MLflow/SwanLab 多监控后端
推理增强	Qwen3 thinking 模式，DeepSeek-R1 推理解析器

1.使用LLM-as-a-judge自动评估

2.支持多种RL算法配置

3.集成外部训练库（Trinity-RFT）