问题域/PD-340

断点续跑与幂等推理

Checkpoint Resume & Idempotent Inference

长时间批量推理任务中断后能从断点恢复,避免重复计算

子问题

1.如何追踪已完成的推理任务

2.如何在中断后安全恢复

3.如何保证结果文件的一致性

4.多 rollout 场景下如何独立追踪每个 rollout 的完成状态

5.partial rollout 中断后如何判断哪些 question 需要全部重做

6.数据分片与断点续跑如何协同工作

各项目的解法1 solutions

Signals

横向对比

维度DeepResearch
追踪粒度question 级,per-rollout 独立追踪
恢复策略启动时扫描输出 JSONL 构建已处理集合,error 记录自动重试
状态存储输出文件即 checkpoint,零外部依赖
并发保护per-rollout threading.Lock + fsync 刷盘
分片支持worker_split 参数实现数据分片级断点续跑
多模式覆盖3 种模式:Set 去重 / Counter 计数 / fully_visited 检测

最佳实践

1.启动时扫描输出文件构建已处理集合,跳过已完成项

2.error 记录不计入已处理集合,实现自动失败重试

3.per-rollout 独立输出文件 + 独立 write_lock 避免跨 rollout 干扰

4.flush + fsync 双重刷盘防止 OS 缓冲区丢失