分布式并行推理
Distributed Parallel Inference
多维并行策略实现大模型跨设备分布式推理
子问题
1.进程组拓扑管理
2.通信后端选择与优化
3.负载均衡策略
4.故障检测与恢复
5.多维并行组合的 rank 自动分配与拓扑验证
6.MoE 专家并行的 all-to-all 通信后端选择(6种策略)
7.单机多进程与多机 Ray 的执行器统一抽象
8.弹性 EP 节点动态加入退出的无状态进程组
各项目的解法1 solutions
Signals
横向对比
| 维度 | vLLM |
|---|---|
| 并行维度 | 七维:TP/PP/DP/EP/PCP/DCP/EPLB,tensor reshape 拓扑划分 |
| 通信后端 | 五级级联:QuickReduce→FlashInfer→CustomAR→SymmMem→NCCL |
| 执行器模式 | 三模式:UniProc/Multiproc(SHM MQ)/Ray Actor |
| 进程组管理 | GroupCoordinator 双后端(NCCL+Gloo)+ 全局单例注册表 |
| 故障检测 | Death pipe 零开销父进程监控 + sentinel 哨兵线程 |
| 弹性扩缩 | StatelessGroupCoordinator 支持 EP 节点动态加入退出 |
最佳实践
1.优先使用tensor并行,pipeline并行作为补充
2.使用NCCL作为GPU间通信后端
3.用 Gloo 做 barrier 和 CPU 元数据通信,避免 NCCL 隐式 GPU 张量
4.EP 与 EPLB 使用独立进程组防止 forward 与负载均衡死锁
5.Death pipe 机制零开销检测父进程崩溃
6.output_rank 优化:仅从最后 PP stage 的 TP rank 0 收集输出