问题域/PD-376

分布式并行推理

Distributed Parallel Inference

多维并行策略实现大模型跨设备分布式推理

子问题

1.进程组拓扑管理

2.通信后端选择与优化

3.负载均衡策略

4.故障检测与恢复

5.多维并行组合的 rank 自动分配与拓扑验证

6.MoE 专家并行的 all-to-all 通信后端选择(6种策略)

7.单机多进程与多机 Ray 的执行器统一抽象

8.弹性 EP 节点动态加入退出的无状态进程组

各项目的解法1 solutions

Signals

横向对比

维度vLLM
并行维度七维:TP/PP/DP/EP/PCP/DCP/EPLB,tensor reshape 拓扑划分
通信后端五级级联:QuickReduce→FlashInfer→CustomAR→SymmMem→NCCL
执行器模式三模式:UniProc/Multiproc(SHM MQ)/Ray Actor
进程组管理GroupCoordinator 双后端(NCCL+Gloo)+ 全局单例注册表
故障检测Death pipe 零开销父进程监控 + sentinel 哨兵线程
弹性扩缩StatelessGroupCoordinator 支持 EP 节点动态加入退出

最佳实践

1.优先使用tensor并行,pipeline并行作为补充

2.使用NCCL作为GPU间通信后端

3.用 Gloo 做 barrier 和 CPU 元数据通信,避免 NCCL 隐式 GPU 张量

4.EP 与 EPLB 使用独立进程组防止 forward 与负载均衡死锁

5.Death pipe 机制零开销检测父进程崩溃

6.output_rank 优化:仅从最后 PP stage 的 TP rank 0 收集输出