问题域/PD-440

Agent 评估框架

Agent Evaluation Framework

Agent 行为的标准化评估、基准测试和追踪基础设施

子问题

1.评估用 Agent 封装

2.评估追踪集成

3.标准化评估场景

4.基准测试运行

5.评估结果到 LangSmith 的 feedback 回写

6.LLM 驱动的失败 trial 根因分析

7.跨运行评估样本的确定性关联

各项目的解法1 solutions

Signals

横向对比

维度DeepAgents
评估架构Wrapper 适配器模式,BaseAgent 接口 + SandboxBackendProtocol 桥接
追踪集成LangSmith trace 上下文管理器,支持 experiment/dataset/feedback 闭环
轨迹格式ATIF-v1.2 标准格式,含 Step/ToolCall/Observation/FinalMetrics
沙箱支持Docker/Modal/Daytona/Runloop 四种环境,通过 Harbor 统一抽象
断言框架TrajectoryExpectations 链式 API,支持步数/工具调用/输出文本断言
失败分析LLM 驱动的根因分析,对比 reference solution 识别失败模式

最佳实践

1.独立 harbor 模块隔离评估逻辑

2.集成 LangSmith 追踪评估运行

3.确定性 Example ID(SHA-256 哈希 instruction)实现跨运行样本追踪

4.评估模式自动跳过 HITL(auto_approve=True)确保可自动化

5.TrajectoryExpectations 链式断言 API 实现精确的行为期望验证