问题域/PD-359

分布式训练

Distributed Training

大模型分布式训练基础设施,包括数据并行、张量并行、资源调度和推理引擎集成

子问题

1.GPU资源池管理

2.分片策略选择

3.训练推理引擎切换

4.多GPU批次对齐

5.序列长度均衡分区避免 DP rank 负载不均

6.参数/优化器 CPU offload 配对调用时序

7.vLLM 版本兼容性适配(wake_up/sleep vs sync/offload)

各项目的解法1 solutions

Signals

横向对比

维度VRAG-RL
编排模式Ray 单控制器 + FSDP Worker RPC 调用
分片策略DeviceMesh 自动选择 FULL_SHARD/HYBRID_SHARD
训练推理切换FSDPVLLMShardingManager 上下文管理器 wake_up/sleep
批次对齐_generate_with_gpu_padding dummy 序列填充裁剪
资源管理ResourcePoolManager 声明式 spec + 启动前校验
参数offload手动 load_to_gpu/offload_to_cpu 配对调用
序列并行Ulysses DeviceMesh (dp, sp) 二维并行

最佳实践

1.FSDP+vLLM混合引擎实现训练推理一体化

2.上下文管理器模式保证训练↔推理切换的 enter/exit 配对

3.ResourcePoolManager 启动前校验集群资源避免运行时失败

4.DeviceMesh 拓扑感知自动选择 FULL_SHARD/HYBRID_SHARD