问题域/PD-376

分布式并行推理

Distributed Parallel Inference

多维并行策略实现大模型跨设备分布式推理

子问题

1.进程组拓扑管理

2.通信后端选择与优化

3.负载均衡策略

4.故障检测与恢复

5.多维并行组合的 rank 自动分配与拓扑验证

6.MoE 专家并行的 all-to-all 通信后端选择（6种策略）

7.单机多进程与多机 Ray 的执行器统一抽象

8.弹性 EP 节点动态加入退出的无状态进程组

各项目的解法1 solutions

Signals

横向对比

维度	vLLM
并行维度	七维：TP/PP/DP/EP/PCP/DCP/EPLB，tensor reshape 拓扑划分
通信后端	五级级联：QuickReduce→FlashInfer→CustomAR→SymmMem→NCCL
执行器模式	三模式：UniProc/Multiproc(SHM MQ)/Ray Actor
进程组管理	GroupCoordinator 双后端（NCCL+Gloo）+ 全局单例注册表
故障检测	Death pipe 零开销父进程监控 + sentinel 哨兵线程
弹性扩缩	StatelessGroupCoordinator 支持 EP 节点动态加入退出

最佳实践

1.优先使用tensor并行，pipeline并行作为补充

2.使用NCCL作为GPU间通信后端

3.用 Gloo 做 barrier 和 CPU 元数据通信，避免 NCCL 隐式 GPU 张量

4.EP 与 EPLB 使用独立进程组防止 forward 与负载均衡死锁

5.Death pipe 机制零开销检测父进程崩溃

6.output_rank 优化：仅从最后 PP stage 的 TP rank 0 收集输出