检查点管理
Checkpoint Management
分布式训练的检查点保存、恢复和管理,支持断点续训和自动发现最新检查点
子问题
1.分片状态保存
2.断点续训
3.检查点清理
4.跨后端兼容
5.RNG 多源状态同步保存与恢复
6.DataLoader 迭代位置持久化
7.远程存储透明缓存与去重
各项目的解法1 solutions
Signals
横向对比
| 维度 | VRAG-RL |
|---|---|
| 保存策略 | SPMD 分片保存,每 rank 独立写 model/optim/extra 三文件 |
| 恢复模式 | 三模式:disable/auto/指定路径,tracker 文件原子发现 |
| 状态完整性 | 模型+优化器+LR调度器+RNG四源+DataLoader位置 |
| 并发安全 | FileLock 哈希锁名+60s超时+降级创建 |
| 远程存储 | copy_to_local 抽象 HDFS/本地,MD5 缓存防重复下载 |
| 清理策略 | 可选 remove_previous_ckpt 删除上一个检查点 |
最佳实践
1.定期保存+自动清理旧检查点平衡存储与安全
2.tracker 文件原子写入避免读到不完整检查点
3.FileLock 哈希锁名避免长路径导致锁文件名超限
4.ShardedStateDictConfig offload_to_cpu 降低保存时 GPU 内存峰值