评估驱动开发
Eval-Driven Development
解决 Agent 输出质量的系统化评估、基准测试和持续改进问题
子问题
1.多维度 LLM-as-Judge 评分体系
2.基准数据集管理与实验追踪
3.Pairwise 对比评估
4.评估结果导出与排行榜提交
5.Supervisor 并行分派行为的正确性验证
6.评估结果从平台到公共排行榜的标准化导出
各项目的解法1 solutions
Signals
横向对比
| 维度 | OpenDeepResearch |
|---|---|
| 评估维度 | 8 维独立评估:6 子维度 overall + relevance/structure/correctness/groundedness/completeness |
| 评估模型 | GPT-4.1 做评估,Claude Opus + Extended Thinking 做 pairwise 裁判 |
| 实验追踪 | LangSmith aevaluate 全托管,metadata 记录 14 个配置参数 |
| 对比模式 | head-to-head 2 路 + free-for-all 3 路 + randomize_order 消除位置偏差 |
| 排行榜集成 | JSONL 导出 → HuggingFace Deep Research Bench 公共排行榜 |
| 事实核查 | claim 提取式 groundedness 评估,逐条判断是否有 raw_notes 支撑 |
最佳实践
1.设计 6+ 独立评估维度覆盖质量全貌
2.用 LangSmith aevaluate 实现可复现实验
3.用 claim 提取式 groundedness 评估替代直接打分实现细粒度事实核查
4.Pairwise 评估用 randomize_order 消除位置偏差
5.用 Extended Thinking 增强裁判推理深度提升对比评估质量
6.将全部实验配置参数记录到 metadata 确保可复现性