问题域/PD-440

Agent 评估框架

Agent Evaluation Framework

Agent 行为的标准化评估、基准测试和追踪基础设施

子问题

1.评估用 Agent 封装

2.评估追踪集成

3.标准化评估场景

4.基准测试运行

5.评估结果到 LangSmith 的 feedback 回写

6.LLM 驱动的失败 trial 根因分析

7.跨运行评估样本的确定性关联

各项目的解法1 solutions

Signals

横向对比

维度	DeepAgents
评估架构	Wrapper 适配器模式，BaseAgent 接口 + SandboxBackendProtocol 桥接
追踪集成	LangSmith trace 上下文管理器，支持 experiment/dataset/feedback 闭环
轨迹格式	ATIF-v1.2 标准格式，含 Step/ToolCall/Observation/FinalMetrics
沙箱支持	Docker/Modal/Daytona/Runloop 四种环境，通过 Harbor 统一抽象
断言框架	TrajectoryExpectations 链式 API，支持步数/工具调用/输出文本断言
失败分析	LLM 驱动的根因分析，对比 reference solution 识别失败模式

最佳实践

1.独立 harbor 模块隔离评估逻辑

2.集成 LangSmith 追踪评估运行

3.确定性 Example ID（SHA-256 哈希 instruction）实现跨运行样本追踪

4.评估模式自动跳过 HITL（auto_approve=True）确保可自动化

5.TrajectoryExpectations 链式断言 API 实现精确的行为期望验证