问题域/PD-363

检查点管理

Checkpoint Management

分布式训练的检查点保存、恢复和管理,支持断点续训和自动发现最新检查点

子问题

1.分片状态保存

2.断点续训

3.检查点清理

4.跨后端兼容

5.RNG 多源状态同步保存与恢复

6.DataLoader 迭代位置持久化

7.远程存储透明缓存与去重

各项目的解法1 solutions

Signals

横向对比

维度VRAG-RL
保存策略SPMD 分片保存,每 rank 独立写 model/optim/extra 三文件
恢复模式三模式:disable/auto/指定路径,tracker 文件原子发现
状态完整性模型+优化器+LR调度器+RNG四源+DataLoader位置
并发安全FileLock 哈希锁名+60s超时+降级创建
远程存储copy_to_local 抽象 HDFS/本地,MD5 缓存防重复下载
清理策略可选 remove_previous_ckpt 删除上一个检查点

最佳实践

1.定期保存+自动清理旧检查点平衡存储与安全

2.tracker 文件原子写入避免读到不完整检查点

3.FileLock 哈希锁名避免长路径导致锁文件名超限

4.ShardedStateDictConfig offload_to_cpu 降低保存时 GPU 内存峰值