断点续跑与幂等推理
Checkpoint Resume & Idempotent Inference
长时间批量推理任务中断后能从断点恢复,避免重复计算
子问题
1.如何追踪已完成的推理任务
2.如何在中断后安全恢复
3.如何保证结果文件的一致性
4.多 rollout 场景下如何独立追踪每个 rollout 的完成状态
5.partial rollout 中断后如何判断哪些 question 需要全部重做
6.数据分片与断点续跑如何协同工作
各项目的解法1 solutions
Signals
横向对比
| 维度 | DeepResearch |
|---|---|
| 追踪粒度 | question 级,per-rollout 独立追踪 |
| 恢复策略 | 启动时扫描输出 JSONL 构建已处理集合,error 记录自动重试 |
| 状态存储 | 输出文件即 checkpoint,零外部依赖 |
| 并发保护 | per-rollout threading.Lock + fsync 刷盘 |
| 分片支持 | worker_split 参数实现数据分片级断点续跑 |
| 多模式覆盖 | 3 种模式:Set 去重 / Counter 计数 / fully_visited 检测 |
最佳实践
1.启动时扫描输出文件构建已处理集合,跳过已完成项
2.error 记录不计入已处理集合,实现自动失败重试
3.per-rollout 独立输出文件 + 独立 write_lock 避免跨 rollout 干扰
4.flush + fsync 双重刷盘防止 OS 缓冲区丢失