配置驱动的 Agent 基准测试
Config-Driven Agent Benchmarking
通过 JSON 配置文件驱动多 Agent 并行基准测试,支持多任务源和过滤策略
子问题
1.多任务源适配(parquet/jsonl/inline)
2.Agent 过滤与任务分配策略
3.exhaust 模式与重试控制
4.评测结果持久化与对比分析
5.经济约束下的 Agent 成本效率评测
6.断点续跑与已完成任务状态恢复
7.Agent 级配置隔离与多模型并行对比
各项目的解法1 solutions
Signals
横向对比
| 维度 | ClawWork |
|---|---|
| 配置格式 | 单一 JSON 文件,嵌套结构含 agents[]/task_source/economic/evaluation |
| 任务源适配 | parquet/jsonl/inline 三源路由,统一 schema 校验 |
| Agent 参数化 | agents[] 数组,每个 Agent 独立 filters/assignment/model/tasks_per_day |
| 评估机制 | LLM 评分 0.0-1.0 + 0.6 阈值门控 + 职业特定 rubric |
| 经济约束 | 初始余额 + token 成本扣减 + 破产终止,评测成本效率 |
| 断点续跑 | task_completions.jsonl 记录已完成任务,exhaust 模式自动跳过 |
最佳实践
1.将任务源、Agent参数、评估配置完全外部化为JSON实现可复现评测
2.用 JSONL append-only 日志实现断点续跑而非数据库事务
3.显式分配(assignment)优先级高于过滤器(filters)避免配置冲突
4.经济约束(余额+token成本+评分阈值)作为评测的第二维度