张量并行推理

Tensor Parallelism

多 GPU 张量并行推理实现。nano-vllm 通过 NCCL 后端的 torch.distributed 实现 TP，在 linear.py 中提供 ColumnParallelLinear/RowParallelLinear/QKVParallelLinear 三种并行线性层，自动按 tp_size 切分权重。model_runner.py 用 multiprocessing spawn 启动多进程，rank 0 为主进程通过 Event 同步调度。

子问题

1.权重按列/行切分与 weight_loader 自动分片

2.QKV 三路并行切分（head 维度均分）

3.all_reduce 通信同步

4.多进程生命周期管理（spawn + Event 同步）

各项目的解法0 solutions

Signals

最佳实践

1.weight_loader 模式：每个参数自带加载逻辑，支持异构切分

2.rank 0 主控 + Event 信号驱动从进程，避免复杂 RPC