问题域/PD-291

配置驱动的 Agent 基准测试

Config-Driven Agent Benchmarking

通过 JSON 配置文件驱动多 Agent 并行基准测试,支持多任务源和过滤策略

子问题

1.多任务源适配(parquet/jsonl/inline)

2.Agent 过滤与任务分配策略

3.exhaust 模式与重试控制

4.评测结果持久化与对比分析

5.经济约束下的 Agent 成本效率评测

6.断点续跑与已完成任务状态恢复

7.Agent 级配置隔离与多模型并行对比

各项目的解法1 solutions

Signals

横向对比

维度ClawWork
配置格式单一 JSON 文件,嵌套结构含 agents[]/task_source/economic/evaluation
任务源适配parquet/jsonl/inline 三源路由,统一 schema 校验
Agent 参数化agents[] 数组,每个 Agent 独立 filters/assignment/model/tasks_per_day
评估机制LLM 评分 0.0-1.0 + 0.6 阈值门控 + 职业特定 rubric
经济约束初始余额 + token 成本扣减 + 破产终止,评测成本效率
断点续跑task_completions.jsonl 记录已完成任务,exhaust 模式自动跳过

最佳实践

1.将任务源、Agent参数、评估配置完全外部化为JSON实现可复现评测

2.用 JSONL append-only 日志实现断点续跑而非数据库事务

3.显式分配(assignment)优先级高于过滤器(filters)避免配置冲突

4.经济约束(余额+token成本+评分阈值)作为评测的第二维度