Agent 评估框架
Agent Evaluation Framework
Agent 行为的标准化评估、基准测试和追踪基础设施
子问题
1.评估用 Agent 封装
2.评估追踪集成
3.标准化评估场景
4.基准测试运行
5.评估结果到 LangSmith 的 feedback 回写
6.LLM 驱动的失败 trial 根因分析
7.跨运行评估样本的确定性关联
各项目的解法1 solutions
Signals
横向对比
| 维度 | DeepAgents |
|---|---|
| 评估架构 | Wrapper 适配器模式,BaseAgent 接口 + SandboxBackendProtocol 桥接 |
| 追踪集成 | LangSmith trace 上下文管理器,支持 experiment/dataset/feedback 闭环 |
| 轨迹格式 | ATIF-v1.2 标准格式,含 Step/ToolCall/Observation/FinalMetrics |
| 沙箱支持 | Docker/Modal/Daytona/Runloop 四种环境,通过 Harbor 统一抽象 |
| 断言框架 | TrajectoryExpectations 链式 API,支持步数/工具调用/输出文本断言 |
| 失败分析 | LLM 驱动的根因分析,对比 reference solution 识别失败模式 |
最佳实践
1.独立 harbor 模块隔离评估逻辑
2.集成 LangSmith 追踪评估运行
3.确定性 Example ID(SHA-256 哈希 instruction)实现跨运行样本追踪
4.评估模式自动跳过 HITL(auto_approve=True)确保可自动化
5.TrajectoryExpectations 链式断言 API 实现精确的行为期望验证