问题域/PD-444

评估驱动开发

Eval-Driven Development

解决 Agent 输出质量的系统化评估、基准测试和持续改进问题

子问题

1.多维度 LLM-as-Judge 评分体系

2.基准数据集管理与实验追踪

3.Pairwise 对比评估

4.评估结果导出与排行榜提交

5.Supervisor 并行分派行为的正确性验证

6.评估结果从平台到公共排行榜的标准化导出

各项目的解法1 solutions

Signals

横向对比

维度	OpenDeepResearch
评估维度	8 维独立评估：6 子维度 overall + relevance/structure/correctness/groundedness/completeness
评估模型	GPT-4.1 做评估，Claude Opus + Extended Thinking 做 pairwise 裁判
实验追踪	LangSmith aevaluate 全托管，metadata 记录 14 个配置参数
对比模式	head-to-head 2 路 + free-for-all 3 路 + randomize_order 消除位置偏差
排行榜集成	JSONL 导出 → HuggingFace Deep Research Bench 公共排行榜
事实核查	claim 提取式 groundedness 评估，逐条判断是否有 raw_notes 支撑

最佳实践

1.设计 6+ 独立评估维度覆盖质量全貌

2.用 LangSmith aevaluate 实现可复现实验

3.用 claim 提取式 groundedness 评估替代直接打分实现细粒度事实核查

4.Pairwise 评估用 randomize_order 消除位置偏差

5.用 Extended Thinking 增强裁判推理深度提升对比评估质量

6.将全部实验配置参数记录到 metadata 确保可复现性