分布式训练
Distributed Training
大模型分布式训练基础设施,包括数据并行、张量并行、资源调度和推理引擎集成
子问题
1.GPU资源池管理
2.分片策略选择
3.训练推理引擎切换
4.多GPU批次对齐
5.序列长度均衡分区避免 DP rank 负载不均
6.参数/优化器 CPU offload 配对调用时序
7.vLLM 版本兼容性适配(wake_up/sleep vs sync/offload)
各项目的解法1 solutions
Signals
横向对比
| 维度 | VRAG-RL |
|---|---|
| 编排模式 | Ray 单控制器 + FSDP Worker RPC 调用 |
| 分片策略 | DeviceMesh 自动选择 FULL_SHARD/HYBRID_SHARD |
| 训练推理切换 | FSDPVLLMShardingManager 上下文管理器 wake_up/sleep |
| 批次对齐 | _generate_with_gpu_padding dummy 序列填充裁剪 |
| 资源管理 | ResourcePoolManager 声明式 spec + 启动前校验 |
| 参数offload | 手动 load_to_gpu/offload_to_cpu 配对调用 |
| 序列并行 | Ulysses DeviceMesh (dp, sp) 二维并行 |
最佳实践
1.FSDP+vLLM混合引擎实现训练推理一体化
2.上下文管理器模式保证训练↔推理切换的 enter/exit 配对
3.ResourcePoolManager 启动前校验集群资源避免运行时失败
4.DeviceMesh 拓扑感知自动选择 FULL_SHARD/HYBRID_SHARD