问题域/PD-432

高级优化器设计

Advanced Optimizer Design

结合 Muon 正交化与 AdamW 的混合优化器,含融合内核与分布式支持

子问题

1.矩阵参数正交化(Polar Express)

2.方差归约(NorMuon)

3.参数分组与差异化学习率

4.torch.compile 融合避免 Python 开销

5.Cautious 权重衰减(仅梯度与参数同号时施加)

6.分布式 Muon 的参数 padding 与 buffer 复用

7.muP 风格跨模型尺寸的学习率迁移

8.Muon momentum 预热调度(0.85→0.95)

各项目的解法0 solutions

Signals

最佳实践

1.0-D CPU tensor 避免 torch.compile 重编译

2.同形状矩阵参数 stack 为 3D tensor 减少 kernel launch 次数

3.Polar Express 预计算系数替代运行时 Newton-Schulz 迭代

4.reduce_scatter 输入 buffer 复用为 all_gather 输出节省显存

5.权重衰减线性衰减到零配合 T_epoch 理论保持训练稳定